{"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[]},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"},"gpuClass":"standard"},"cells":[{"cell_type":"markdown","source":["# **Aula 4 - 28/08 - Pandas, Manipulação e Limpeza de Dados, Estatísticas Descritivas.\n","\n"],"metadata":{"id":"_ns7mAL7Sqmm"}},{"cell_type":"markdown","source":["

O Pandas é uma biblioteca Python amplamente utilizada para análise e manipulação de dados. Ela fornece estruturas de dados e funções que facilitam a manipulação, limpeza, agregação e análise de dados. Pandas é uma ferramenta essencial para qualquer pessoa que trabalhe com dados em Python.\n","\n","

Para começar a usar o Pandas, você deve importá-lo em seu ambiente Python, geralmente usando o seguinte comando:\n","\n"],"metadata":{"id":"WbPvhjqETV7N"}},{"cell_type":"code","source":["import pandas as pd"],"metadata":{"id":"CX6Y11MuuMq6","executionInfo":{"status":"ok","timestamp":1693243598753,"user_tz":180,"elapsed":377,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}}},"execution_count":1,"outputs":[]},{"cell_type":"markdown","source":["## 1. Series\n","\n"],"metadata":{"id":"D0rD_ajPUnll"}},{"cell_type":"markdown","source":["

Em Pandas, uma Series é uma estrutura de dados unidimensional que se assemelha a uma coluna em uma planilha ou a um vetor em programação. Cada elemento em uma Series possui um rótulo associado, chamado de índice. Essa combinação de dados e índices torna as Series poderosas e flexíveis para trabalhar com dados em Python.\n","\n","Aqui estão alguns pontos-chave sobre as Series em Pandas:\n","\n","\n","* Unidimensional: As Series são estruturas de dados unidimensionais, o que significa que elas contêm apenas uma sequência de dados. Enquanto os DataFrames, outra estrutura de dados Pandas, são bidimensionais, as Series são projetadas para armazenar dados unidimensionais, como uma coluna de valores.\n","\n","* Índices: Cada elemento em uma Series tem um rótulo de índice exclusivo. Esses índices são automaticamente atribuídos às posições dos elementos na Series quando você a cria. Você também pode definir índices personalizados se desejar.\n","\n","* Tipos de Dados: As Series podem conter dados de diversos tipos, como números inteiros, números de ponto flutuante, strings, datas e assim por diante. O Pandas permite que as Series armazenem dados heterogêneos, ou seja, dados de diferentes tipos em uma única Series.\n","\n","* Operações de Vetorização: Uma das vantagens das Series é que elas suportam operações de vetorização. Isso significa que você pode aplicar operações diretamente a uma Series sem precisar de loops explícitos. Isso torna o código mais eficiente e legível.\n","\n","* Acesso aos Dados: Você pode acessar os elementos de uma Series de várias maneiras, incluindo índices numéricos, índices de rótulos, fatiamento e seleção condicional. Isso facilita a recuperação de dados específicos ou a realização de operações neles.\n","\n","* Nome da Série: Você pode atribuir um nome a uma Series, o que pode ser útil para documentação e referência. O nome é armazenado como um atributo da Series.\n","\n"],"metadata":{"id":"sw2sE3Gw6Umh"}},{"cell_type":"markdown","source":["Para criar uma série em pandas, pode se fazer de forma parecida com os numpy arrays:"],"metadata":{"id":"6_rJpIZ3ymjK"}},{"cell_type":"code","source":["import pandas as pd\n","\n","# Criando uma série a partir de uma lista\n","\n","dados = [1,2,3,4,5]\n","\n","serie = pd.Series(dados)\n","\n","print(serie)\n","print(type(serie))"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"ULdzEgdbymNq","executionInfo":{"status":"ok","timestamp":1693245760886,"user_tz":180,"elapsed":281,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}},"outputId":"fd127c01-0069-4141-eb01-7db948cdbe82"},"execution_count":2,"outputs":[{"output_type":"stream","name":"stdout","text":["0 1\n","1 2\n","2 3\n","3 4\n","4 5\n","dtype: int64\n","\n"]}]},{"cell_type":"markdown","source":["Veja que o valor impresso é diferente de uma lista ou de um numpy array: automaticamente são criados índices para cada elemento da serie. As Series são uma parte fundamental do Pandas e são frequentemente usadas em conjunto com DataFrames para realizar análises de dados e manipulações de dados mais detalhadas. Elas são versáteis e desempenham um papel crucial em muitas operações de análise de dados em Python. Se quiser definir o índice a ser utilizado (ao invés de um indice que começa do 0):\n"],"metadata":{"id":"-nImsdUHy6gi"}},{"cell_type":"code","source":["dados2 = pd.Series([10,7,3,2,-15], # Lista de valores\n"," index = ['Brasil', 'Japão', 'Coréia', 'México', 'EUA']) # Valores do índice\n","\n","print(dados2)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"0Nam8DSlzWqO","executionInfo":{"status":"ok","timestamp":1693179234197,"user_tz":180,"elapsed":25,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"ae33c5ae-aea3-43ad-c053-3dfdba871f74"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Brasil 10\n","Japão 7\n","Coréia 3\n","México 2\n","EUA -15\n","dtype: int64\n"]}]},{"cell_type":"markdown","source":["De forma parecida com arrays do Numpy, você pode usar os labels para selecionar valores:"],"metadata":{"id":"28vPJ0c8zxjV"}},{"cell_type":"code","source":["dados2[\"Brasil\"]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"GWJSPcwpz4Nu","executionInfo":{"status":"ok","timestamp":1693179234198,"user_tz":180,"elapsed":23,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"df19bc3a-0a56-4db7-9146-61be71941cc0"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["10"]},"metadata":{},"execution_count":5}]},{"cell_type":"markdown","source":["Ou uma lista de valores:"],"metadata":{"id":"k6PVlOKJz7Uk"}},{"cell_type":"code","source":["dados2[['Brasil', 'México', 'EUA']]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"gQ9huagHz_K2","executionInfo":{"status":"ok","timestamp":1693179234198,"user_tz":180,"elapsed":19,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"db4bb48c-89a2-4d4a-d1c9-928ebaeeafab"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Brasil 10\n","México 2\n","EUA -15\n","dtype: int64"]},"metadata":{},"execution_count":6}]},{"cell_type":"markdown","source":["Você pode filtrar valores utilizando operações Booleanas:"],"metadata":{"id":"zY_0dz8B0JBU"}},{"cell_type":"code","source":["dados2[dados2 > 5]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"q8owSzBZ0MSJ","executionInfo":{"status":"ok","timestamp":1693179234198,"user_tz":180,"elapsed":17,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"429e675b-2a53-4c2e-c230-a00c09b97b89"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Brasil 10\n","Japão 7\n","dtype: int64"]},"metadata":{},"execution_count":7}]},{"cell_type":"markdown","source":["Pode fazer operações matemáticas"],"metadata":{"id":"rXnG4yPF0Sgs"}},{"cell_type":"code","source":["dados2 * 2"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"HEQT0ex-0Vcx","executionInfo":{"status":"ok","timestamp":1693179234199,"user_tz":180,"elapsed":15,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f5fa8899-611c-43ec-8951-f93e8d8e8fb9"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Brasil 20\n","Japão 14\n","Coréia 6\n","México 4\n","EUA -30\n","dtype: int64"]},"metadata":{},"execution_count":8}]},{"cell_type":"markdown","source":["E assim por diante. Além disso, como ressalta Mckinney (2022), series de Pandas são parecidas também com dicionários. Você pode verificar se determinada \"chave\" (ou índice nesse contexto) está dentro de uma serie:"],"metadata":{"id":"filPLVhW0ctK"}},{"cell_type":"code","source":["\"Brasil\" in dados2"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"MpR_OU8a0zhj","executionInfo":{"status":"ok","timestamp":1693179234199,"user_tz":180,"elapsed":10,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"3144bd71-2e6f-42c9-dc5f-3a7e8a159639"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["True"]},"metadata":{},"execution_count":9}]},{"cell_type":"code","source":["\"Argentina\" in dados2"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"BaFovLdJ03i0","executionInfo":{"status":"ok","timestamp":1693179234782,"user_tz":180,"elapsed":588,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"7cb32f61-bb9b-49f6-f6a9-1b21d29c0ca7"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["False"]},"metadata":{},"execution_count":10}]},{"cell_type":"markdown","source":["Se passar um dicionário para transformar em série, automaticamente o Pandas utilizará as chaves como índice"],"metadata":{"id":"UNDGBnk406Y8"}},{"cell_type":"code","source":["dados_dict = {'Brasil': 10, 'Japão': 7, 'Coréia': 3, 'México':2, 'EUA': -15}\n","\n","dados3 = pd.Series(dados_dict)\n","\n","dados3\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"5xoo7Y5O1CMi","executionInfo":{"status":"ok","timestamp":1693179234783,"user_tz":180,"elapsed":43,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"ab4815c7-9e04-4563-c989-903dbeb43d3f"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Brasil 10\n","Japão 7\n","Coréia 3\n","México 2\n","EUA -15\n","dtype: int64"]},"metadata":{},"execution_count":11}]},{"cell_type":"markdown","source":["E pode transformar de volta em um dicionário utilizando o método \".to_dict()\"\n"],"metadata":{"id":"g30I3UA71W92"}},{"cell_type":"code","source":["dados_dict2 = dados3.to_dict()\n","\n","print(dados_dict2)\n","print(type(dados_dict2))"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"XdE6Oe1X1WSf","executionInfo":{"status":"ok","timestamp":1693179234783,"user_tz":180,"elapsed":41,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"51e70eac-7f8f-4fa1-f99b-25517eb5edb1"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["{'Brasil': 10, 'Japão': 7, 'Coréia': 3, 'México': 2, 'EUA': -15}\n","\n"]}]},{"cell_type":"markdown","source":["Quando existem valores *NA* (Ou *missing*), você pode usar o método isna() para identificá-los:"],"metadata":{"id":"bAT8vxbF1s5j"}},{"cell_type":"code","source":["import pandas as pd\n","import numpy as np\n","\n","# Criando uma Series com índice de países\n","dados4 = {'Brasil': 210_000_000,\n"," 'EUA': 328_000_000,\n"," 'China': 1_409_000_000}\n","\n","series2 = pd.Series(dados4)\n","\n","# Definindo um valor ausente para um país\n","series2['Índia'] = np.nan\n","\n","# Imprimindo a série\n","print(series2)\n","\n","print(\" \")\n","print(\"*****Missings******\")\n","\n","\n","# Checando os ausentes\n","print(series2.isna())"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"byp9fysg2o09","executionInfo":{"status":"ok","timestamp":1693179234783,"user_tz":180,"elapsed":38,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"ec54e327-c428-47cb-d66e-34a85d8afc24"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Brasil 2.100000e+08\n","EUA 3.280000e+08\n","China 1.409000e+09\n","Índia NaN\n","dtype: float64\n"," \n","*****Missings******\n","Brasil False\n","EUA False\n","China False\n","Índia True\n","dtype: bool\n"]}]},{"cell_type":"markdown","source":["Por fim, se quiser pode nomear tanto os índices da série quanto seus valores:"],"metadata":{"id":"DQrG8uJr4JOI"}},{"cell_type":"code","source":["# Nomeando os valores\n","\n","series2.name = 'PIB per capita'\n","\n","# nomeando o índice\n","\n","series2.index.name = 'Países'\n","\n","\n","print(series2)\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"_D5NcurZ4MzV","executionInfo":{"status":"ok","timestamp":1693179234783,"user_tz":180,"elapsed":36,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"1f1d86e6-83f4-41f9-a232-f64ad4e4a415"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Países\n","Brasil 2.100000e+08\n","EUA 3.280000e+08\n","China 1.409000e+09\n","Índia NaN\n","Name: PIB per capita, dtype: float64\n"]}]},{"cell_type":"markdown","source":["### Exercícios"],"metadata":{"id":"xS640Eo_B_A_"}},{"cell_type":"markdown","source":["Para os exercícios, sempre é bom consultar a documentação específica do Pandas sobre [Series](https://pandas.pydata.org/docs/reference/series.html)"],"metadata":{"id":"CCt-g6L05n_o"}},{"cell_type":"markdown","source":["1 - Filtragem com Series - Crie uma Series com números inteiros aleatórios. Em seguida, crie uma nova Series que contenha apenas os valores maiores que 50 da primeira Series."],"metadata":{"id":"TIwStOxHUTai"}},{"cell_type":"code","source":["# Criando uma Series com números inteiros aleatórios\n","data = [45, 60, 75, 30, 90, 55, 70]\n","series = pd.Series(data)\n","\n","# Filtrando valores maiores que 50\n","filtrados = series[series > 50]\n","\n","print(\"Série original:\")\n","print(series)\n","print(\"\\nValores maiores que 50:\")\n","print(filtrados)"],"metadata":{"id":"6UVus0k3TOLV","colab":{"base_uri":"https://localhost:8080/"},"executionInfo":{"status":"ok","timestamp":1693245771460,"user_tz":180,"elapsed":257,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}},"outputId":"b8f26b24-532b-485f-fe0c-8aa0c7a00df5"},"execution_count":3,"outputs":[{"output_type":"stream","name":"stdout","text":["Série original:\n","0 45\n","1 60\n","2 75\n","3 30\n","4 90\n","5 55\n","6 70\n","dtype: int64\n","\n","Valores maiores que 50:\n","1 60\n","2 75\n","4 90\n","5 55\n","6 70\n","dtype: int64\n"]}]},{"cell_type":"markdown","source":["2 - Operações com Series - Primeiro, vamos criar duas Series com dados numéricos:"],"metadata":{"id":"8MNj4OSyU8Us"}},{"cell_type":"code","source":["# Criando as duas Series\n","serie1 = pd.Series([10, 20, 30, 40, 50])\n","serie2 = pd.Series([5, 15, 25, 35, 45])"],"metadata":{"id":"y_fLjaLvTOEy","executionInfo":{"status":"ok","timestamp":1693245893523,"user_tz":180,"elapsed":283,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}}},"execution_count":4,"outputs":[]},{"cell_type":"markdown","source":["a) Some as duas Series"],"metadata":{"id":"qUGa4Wiy54-G"}},{"cell_type":"code","source":["soma = serie1 + serie2\n","print(\"Soma das Series:\")\n","print(soma)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"mAAx4l0g56km","executionInfo":{"status":"ok","timestamp":1693245896503,"user_tz":180,"elapsed":255,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}},"outputId":"d378f685-f8a4-4ff4-cf77-f560a8a1e7b2"},"execution_count":5,"outputs":[{"output_type":"stream","name":"stdout","text":["Soma das Series:\n","0 15\n","1 35\n","2 55\n","3 75\n","4 95\n","dtype: int64\n"]}]},{"cell_type":"markdown","source":["b) Multiplique as Series uma pela outra"],"metadata":{"id":"sVVyRh9l568n"}},{"cell_type":"code","source":["mult = serie1 * serie2\n","\n","print(\"Multplicação das Series: \")\n","print(mult)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"MRSyVHip5_pg","executionInfo":{"status":"ok","timestamp":1693246038620,"user_tz":180,"elapsed":243,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}},"outputId":"add5cac4-9fdb-4025-85f3-bb33c9b4f782"},"execution_count":6,"outputs":[{"output_type":"stream","name":"stdout","text":["Multplicação das Series: \n","0 50\n","1 300\n","2 750\n","3 1400\n","4 2250\n","dtype: int64\n"]}]},{"cell_type":"markdown","source":["c) Encontre o valor máximo nas duas Series"],"metadata":{"id":"xiZyx2r36ADR"}},{"cell_type":"code","source":["print(serie1.max())\n","print(serie2.max())"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"aFKOBlHG6C5u","executionInfo":{"status":"ok","timestamp":1693179234784,"user_tz":180,"elapsed":26,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"8b15243b-f2f6-4834-8617-aaf4e528a0a7"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["50\n","45\n"]}]},{"cell_type":"markdown","source":["d) Calcule a média dos valores nas duas séries:"],"metadata":{"id":"qCFBAj0J6Rk_"}},{"cell_type":"code","source":["media_serie1 = serie1.mean()\n","media_serie2 = serie2.mean()\n","\n","print(\"Média de Serie1:\", media_serie1)\n","print(\"Média de Serie2:\", media_serie2)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"V38BByp46UBk","executionInfo":{"status":"ok","timestamp":1693179234784,"user_tz":180,"elapsed":23,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"b92cf68e-2c67-490e-e80e-4f2c8be79390"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Média de Serie1: 30.0\n","Média de Serie2: 25.0\n"]}]},{"cell_type":"markdown","source":["3 - Crie uma Series com nomes de cidades e seus respectivos números de habitantes (Não precisam ser dados reais). Classifique a Series em ordem decrescente com base no número de habitantes."],"metadata":{"id":"YCLW__joVLop"}},{"cell_type":"code","source":["# Criando uma Series com nomes de cidades e seus respectivos números de habitantes\n","data = {'Cidade A': 750000, 'Cidade B': 610000, 'Cidade C': 850000, 'Cidade D': 420000, 'Cidade E': 320000}\n","series = pd.Series(data)\n","\n","# Classificando a Series em ordem decrescente com base no número de habitantes\n","series_ordenada = series.sort_values(ascending=False)\n","\n","print(\"Série original:\")\n","print(series)\n","print(\"\\nSérie classificada em ordem decrescente:\")\n","print(series_ordenada)"],"metadata":{"id":"TWbms9g7TN-I","colab":{"base_uri":"https://localhost:8080/"},"executionInfo":{"status":"ok","timestamp":1693179234784,"user_tz":180,"elapsed":20,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"a6477902-a5a2-4e28-9c30-335345d02e4e"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Série original:\n","Cidade A 750000\n","Cidade B 610000\n","Cidade C 850000\n","Cidade D 420000\n","Cidade E 320000\n","dtype: int64\n","\n","Série classificada em ordem decrescente:\n","Cidade C 850000\n","Cidade A 750000\n","Cidade B 610000\n","Cidade D 420000\n","Cidade E 320000\n","dtype: int64\n"]}]},{"cell_type":"markdown","source":["4 - Crie duas Series com dados de sua escolha. Concatene as duas Series em uma única Series. Certifique-se de que os índices sejam únicos após a concatenação."],"metadata":{"id":"g04JWLs3DBTt"}},{"cell_type":"code","source":["# Criando duas Series com dados de sua escolha\n","serie1 = pd.Series([1, 2, 3], index=['A', 'B', 'C'])\n","serie2 = pd.Series([4, 5, 6], index=['D', 'E', 'F'])\n","\n","# Concatenando as duas Series em uma única Series\n","serie_concatenada = pd.concat([serie1, serie2])\n","\n","print(\"Primeira Series:\")\n","print(serie1)\n","print(\"\\nSegunda Series:\")\n","print(serie2)\n","print(\"\\nSeries Concatenada:\")\n","print(serie_concatenada)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"o8shTSEQDWzY","executionInfo":{"status":"ok","timestamp":1693179234784,"user_tz":180,"elapsed":18,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"75d6c10c-c896-414c-c90a-4158592f9364"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Primeira Series:\n","A 1\n","B 2\n","C 3\n","dtype: int64\n","\n","Segunda Series:\n","D 4\n","E 5\n","F 6\n","dtype: int64\n","\n","Series Concatenada:\n","A 1\n","B 2\n","C 3\n","D 4\n","E 5\n","F 6\n","dtype: int64\n"]}]},{"cell_type":"markdown","source":["5 - No seguinte dicionário estão duas informações: O nome de políticos e a quantidade de tweets que fizeram sobre as vacinas de Covid-19 no período de 2020 a 2021. Converta esse dicionário em uma série e dê as seguintes informações: Qual a média de tweets, o desvio padrão e quem tweetou mais."],"metadata":{"id":"EVFVGeJ7Vfza"}},{"cell_type":"code","source":["import random\n","\n","# Criando o dicionário com políticos e números de tweets\n","politicos = {\n"," \"Politico1\": random.randint(0, 500),\n"," \"Politico2\": random.randint(0, 500),\n"," \"Politico3\": random.randint(0, 500),\n"," \"Politico4\": random.randint(0, 500),\n"," \"Politico5\": random.randint(0, 500),\n"," \"Politico6\": random.randint(0, 500),\n"," \"Politico7\": random.randint(0, 500),\n"," \"Politico8\": random.randint(0, 500),\n"," \"Politico9\": random.randint(0, 500),\n"," \"Politico10\": random.randint(0, 500),\n"," \"Politico11\": random.randint(0, 500),\n"," \"Politico12\": random.randint(0, 500),\n"," \"Politico13\": random.randint(0, 500),\n"," \"Politico14\": random.randint(0, 500),\n"," \"Politico15\": random.randint(0, 500),\n"," \"Politico16\": random.randint(0, 500),\n"," \"Politico17\": random.randint(0, 500),\n"," \"Politico18\": random.randint(0, 500),\n"," \"Politico19\": random.randint(0, 500),\n"," \"Politico20\": random.randint(0, 500)\n","}\n","\n","# Convertendo o dicionário em uma Series\n","serie_politicos = pd.Series(politicos)\n","\n","# Calculando a média de tweets\n","media_tweets = serie_politicos.mean()\n","\n","# Calculando o desvio padrão dos tweets\n","desvio_padrao_tweets = serie_politicos.std()\n","\n","# Encontrando o político que tweetou mais\n","politico_mais_tweets = serie_politicos.idxmax()\n","\n","print(\"Série de Políticos e Números de Tweets:\")\n","print(serie_politicos)\n","print(\"\\nMédia de Tweets:\", media_tweets)\n","print(\"Desvio Padrão dos Tweets:\", desvio_padrao_tweets)\n","print(\"Político que Tweetou Mais:\", politico_mais_tweets, \"com\", serie_politicos[politico_mais_tweets], \"tweets.\")\n","\n","\n","\n","\n","\n"],"metadata":{"id":"NO3cS6etWG5V","colab":{"base_uri":"https://localhost:8080/"},"executionInfo":{"status":"ok","timestamp":1693246617405,"user_tz":180,"elapsed":317,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}},"outputId":"643a1ebc-238c-466c-a73e-0145d9b2f30a"},"execution_count":7,"outputs":[{"output_type":"stream","name":"stdout","text":["Série de Políticos e Números de Tweets:\n","Politico1 304\n","Politico2 468\n","Politico3 451\n","Politico4 166\n","Politico5 328\n","Politico6 270\n","Politico7 431\n","Politico8 271\n","Politico9 182\n","Politico10 477\n","Politico11 500\n","Politico12 212\n","Politico13 327\n","Politico14 149\n","Politico15 29\n","Politico16 376\n","Politico17 158\n","Politico18 446\n","Politico19 281\n","Politico20 397\n","dtype: int64\n","\n","Média de Tweets: 311.15\n","Desvio Padrão dos Tweets: 132.42486449621956\n","Político que Tweetou Mais: Politico11 com 500 tweets.\n"]}]},{"cell_type":"markdown","source":["6 - Faça uma função que recebe um dicionário como argumento e retorne esse dicionário como série, junto de informações descritivas como média, moda, mediana."],"metadata":{"id":"KeELXjCYWZpy"}},{"cell_type":"code","source":["def analisar_dicionario(dic):\n"," # Convertendo o dicionário em uma Series\n"," serie = pd.Series(dic)\n","\n"," # Calculando as estatísticas descritivas\n"," media = serie.mean()\n"," moda = serie.mode().to_list() # Pode haver mais de uma moda\n"," mediana = serie.median()\n","\n"," # Criando um dicionário com as informações\n"," informacoes = {\n"," \"Serie\": serie,\n"," \"Média\": media,\n"," \"Moda\": moda,\n"," \"Mediana\": mediana\n"," }\n","\n"," return informacoes\n","\n","# Exemplo de uso da função com um dicionário fictício\n","dicionario_exemplo = {\n"," \"A\": 10,\n"," \"B\": 20,\n"," \"C\": 30,\n"," \"D\": 20,\n"," \"E\": 10\n","}\n","\n","resultado = analisar_dicionario(dicionario_exemplo)\n","print(\"Informações Descritivas:\")\n","for chave, valor in resultado.items():\n"," if chave == \"Serie\":\n"," print(f\"{chave}:\\n{valor}\\n\")\n"," else:\n"," print(f\"{chave}: {valor}\")"],"metadata":{"id":"Sr0mYe09TN3y"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["## 2. Dataframes"],"metadata":{"id":"FpvzYRmGtMfz"}},{"cell_type":"markdown","source":["Um DataFrame é uma estrutura de dados bidimensional, tabular e flexível amplamente usada na biblioteca Pandas do Python para armazenar e manipular dados de forma semelhante a uma planilha ou tabela em um banco de dados. Ele é composto por linhas e colunas, onde cada coluna pode conter dados de diferentes tipos, como números inteiros, números de ponto flutuante, strings, datas, entre outros.\n","\n","Aqui estão algumas características e conceitos importantes relacionados a DataFrames:\n","\n","* Bidimensional: DataFrames são bidimensionais, o que significa que eles têm duas dimensões: linhas e colunas. Cada linha representa um registro ou entrada de dados, enquanto cada coluna representa uma variável ou atributo específico.\n","\n","* Estrutura Tabular: Os dados em um DataFrame são organizados em uma estrutura tabular semelhante a uma planilha. As colunas são nomeadas e as linhas são numeradas, permitindo fácil indexação e identificação dos dados.\n","\n","* Tipos de Dados Heterogêneos: Diferentemente das estruturas de arrays NumPy, em que todos os elementos devem ser do mesmo tipo de dados, DataFrames do Pandas permitem que cada coluna contenha dados de tipos diferentes. Isso é particularmente útil para lidar com conjuntos de dados do mundo real, onde os tipos de dados variam.\n","\n","* Rótulos de Linha e Coluna: Os DataFrames têm rótulos de linha (índices) e rótulos de coluna. Os rótulos de linha são usados para identificar as entradas de dados, enquanto os rótulos de coluna são usados para nomear as variáveis ou atributos.\n","\n","* Operações de Dados: Os DataFrames oferecem uma ampla gama de funcionalidades para realizar operações de manipulação de dados, como filtragem, seleção, ordenação, agregação e cálculos estatísticos.\n","\n","* Integração com Pandas: Os DataFrames são a estrutura de dados central na biblioteca Pandas, o que os torna altamente compatíveis com outras funcionalidades do Pandas, como leitura e escrita de dados em diferentes formatos, manipulação de datas e horas, e visualização de dados.\n","\n","* Origem de Dados Diversificada: DataFrames podem ser criados a partir de várias fontes de dados, como arquivos CSV, bancos de dados SQL, dicionários Python e muito mais. Eles também podem ser exportados para diversos formatos, tornando-os ideais para análise de dados e ciência de dados.\n","\n","Em resumo, um DataFrame é uma estrutura de dados extremamente versátil e poderosa no Pandas, projetada para lidar com uma ampla variedade de tarefas de manipulação e análise de dados. É uma escolha popular para qualquer pessoa que trabalhe com dados em Python devido à sua flexibilidade e eficiência."],"metadata":{"id":"9hNLrbJTllgz"}},{"cell_type":"markdown","source":["Para criar um dataframe, você pode utilizar um dicionário com listas aninhadas:"],"metadata":{"id":"7b8cnFhp30Ur"}},{"cell_type":"code","source":["# Criando uma lista de dicionários com dados fictícios\n","dados = [\n"," {'Nome': 'Alice', 'Idade': 25, 'Cidade': 'São Paulo'},\n"," {'Nome': 'João', 'Idade': 30, 'Cidade': 'Rio de Janeiro'},\n"," {'Nome': 'Carol', 'Idade': 22, 'Cidade': 'Belo Horizonte'},\n"," {'Nome': 'David', 'Idade': 35, 'Cidade': 'São Paulo'},\n","]\n","\n","# Criando um DataFrame a partir da lista de dicionários\n","df = pd.DataFrame(dados)\n","\n","# Exibindo o DataFrame\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"R1RFzZ1s36OD","executionInfo":{"status":"ok","timestamp":1693179234785,"user_tz":180,"elapsed":12,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"94b79918-5f5e-4ff6-b5ee-8e2cba5e6fba"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Cidade\n","0 Alice 25 São Paulo\n","1 João 30 Rio de Janeiro\n","2 Carol 22 Belo Horizonte\n","3 David 35 São Paulo\n"]}]},{"cell_type":"markdown","source":["Nem sempre você vai querer imprimir todo o banco. Digamos que você queira só entender mais ou menos o formato do banco. No exemplo a seguir temos um dataframe com 20 observações:"],"metadata":{"id":"hq-z0bdm4Va4"}},{"cell_type":"code","source":["# Criando dados fictícios para o DataFrame\n","dados = {\n"," \"Nome\": [\"Pessoa\" + str(i) for i in range(1, 21)], # usando list comprehension para gerar um índice de 1 a 21 e somar à \"Pessoa\"\n"," \"Idade\": [random.randint(18, 65) for _ in range(20)], # usando list comprehension para gerar números aleatórios no intervalo de 18 a 65 para 20 observações\n"," \"Cidade\": [\"Cidade\" + str(random.randint(1, 5)) for _ in range(20)] # usando list comprehension para gerar um índice de 1 a 5 e somar à \"Cidade\"\n","}\n","\n","# Criando o DataFrame\n","df = pd.DataFrame(dados)\n","\n","# Exibindo o DataFrame\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"5B6ugB9M4c4l","executionInfo":{"status":"ok","timestamp":1693179235382,"user_tz":180,"elapsed":606,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"75f61bb5-9c59-4ad7-f966-c1ad1daef8fe"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Cidade\n","0 Pessoa1 18 Cidade3\n","1 Pessoa2 55 Cidade3\n","2 Pessoa3 61 Cidade4\n","3 Pessoa4 19 Cidade4\n","4 Pessoa5 20 Cidade2\n","5 Pessoa6 64 Cidade3\n","6 Pessoa7 38 Cidade2\n","7 Pessoa8 49 Cidade4\n","8 Pessoa9 58 Cidade3\n","9 Pessoa10 53 Cidade4\n","10 Pessoa11 43 Cidade4\n","11 Pessoa12 44 Cidade5\n","12 Pessoa13 34 Cidade1\n","13 Pessoa14 48 Cidade3\n","14 Pessoa15 19 Cidade1\n","15 Pessoa16 64 Cidade3\n","16 Pessoa17 44 Cidade4\n","17 Pessoa18 38 Cidade2\n","18 Pessoa19 29 Cidade3\n","19 Pessoa20 42 Cidade2\n"]}]},{"cell_type":"markdown","source":["Se quiser, pode imprimir só os 5 primeiros valores utilizando \"head\", mostrando a \"cabeça\" do dataframe"],"metadata":{"id":"UThHsHXB40ea"}},{"cell_type":"code","source":["df.head()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"Zh_ISLTW44TF","executionInfo":{"status":"ok","timestamp":1693179235382,"user_tz":180,"elapsed":98,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"42558476-81a0-4c0d-a445-146cd7345650"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade\n","0 Pessoa1 18 Cidade3\n","1 Pessoa2 55 Cidade3\n","2 Pessoa3 61 Cidade4\n","3 Pessoa4 19 Cidade4\n","4 Pessoa5 20 Cidade2"],"text/html":["\n","

\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidade
0Pessoa118Cidade3
1Pessoa255Cidade3
2Pessoa361Cidade4
3Pessoa419Cidade4
4Pessoa520Cidade2
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":27}]},{"cell_type":"markdown","source":["Se quiser, pode estabelecer um valor para o head, definindo a quantidade de observações a serem imprimidas. Se eu quiser ver apenas os dois primeiros valores"],"metadata":{"id":"9nn8eOP6NHGT"}},{"cell_type":"code","source":["df.head(2)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":112},"id":"3GrTjELDNMBz","executionInfo":{"status":"ok","timestamp":1693179235383,"user_tz":180,"elapsed":98,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"6266195f-934c-48f0-9db1-581406a41a55"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade\n","0 Pessoa1 18 Cidade3\n","1 Pessoa2 55 Cidade3"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidade
0Pessoa118Cidade3
1Pessoa255Cidade3
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":28}]},{"cell_type":"markdown","source":["De forma inversa, pode também imprimir os últimos 5 valores utilizando \"tail\", o \"rabo\" do dataframe:"],"metadata":{"id":"ZynAMqd15AN-"}},{"cell_type":"code","source":["df.tail()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"3QBSqx875K2-","executionInfo":{"status":"ok","timestamp":1693179235383,"user_tz":180,"elapsed":97,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f698b5b2-80fc-4501-daac-bf8279bce5a4"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade\n","15 Pessoa16 64 Cidade3\n","16 Pessoa17 44 Cidade4\n","17 Pessoa18 38 Cidade2\n","18 Pessoa19 29 Cidade3\n","19 Pessoa20 42 Cidade2"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidade
15Pessoa1664Cidade3
16Pessoa1744Cidade4
17Pessoa1838Cidade2
18Pessoa1929Cidade3
19Pessoa2042Cidade2
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":29}]},{"cell_type":"code","source":["# 2 últimos valores\n","\n","df.tail(2)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":112},"id":"dZp5fMLTNUKo","executionInfo":{"status":"ok","timestamp":1693179235383,"user_tz":180,"elapsed":97,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"fca95138-4a44-4c7c-e0da-6c44662b2c23"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade\n","18 Pessoa19 29 Cidade3\n","19 Pessoa20 42 Cidade2"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidade
18Pessoa1929Cidade3
19Pessoa2042Cidade2
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":30}]},{"cell_type":"markdown","source":["Pode mudar a ordem das colunas utilizando a opção \"columns\" na hora de criar um dataframe:"],"metadata":{"id":"Rkhj7Jzd5OFa"}},{"cell_type":"code","source":["df = pd.DataFrame(dados, columns=['Cidade', 'Nome','Idade'])\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":676},"id":"r61fLMKm5W8Z","executionInfo":{"status":"ok","timestamp":1693179235383,"user_tz":180,"elapsed":96,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"a911561d-8af8-4ebc-dbe2-f38683739c84"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade\n","0 Cidade3 Pessoa1 18\n","1 Cidade3 Pessoa2 55\n","2 Cidade4 Pessoa3 61\n","3 Cidade4 Pessoa4 19\n","4 Cidade2 Pessoa5 20\n","5 Cidade3 Pessoa6 64\n","6 Cidade2 Pessoa7 38\n","7 Cidade4 Pessoa8 49\n","8 Cidade3 Pessoa9 58\n","9 Cidade4 Pessoa10 53\n","10 Cidade4 Pessoa11 43\n","11 Cidade5 Pessoa12 44\n","12 Cidade1 Pessoa13 34\n","13 Cidade3 Pessoa14 48\n","14 Cidade1 Pessoa15 19\n","15 Cidade3 Pessoa16 64\n","16 Cidade4 Pessoa17 44\n","17 Cidade2 Pessoa18 38\n","18 Cidade3 Pessoa19 29\n","19 Cidade2 Pessoa20 42"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdade
0Cidade3Pessoa118
1Cidade3Pessoa255
2Cidade4Pessoa361
3Cidade4Pessoa419
4Cidade2Pessoa520
5Cidade3Pessoa664
6Cidade2Pessoa738
7Cidade4Pessoa849
8Cidade3Pessoa958
9Cidade4Pessoa1053
10Cidade4Pessoa1143
11Cidade5Pessoa1244
12Cidade1Pessoa1334
13Cidade3Pessoa1448
14Cidade1Pessoa1519
15Cidade3Pessoa1664
16Cidade4Pessoa1744
17Cidade2Pessoa1838
18Cidade3Pessoa1929
19Cidade2Pessoa2042
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":31}]},{"cell_type":"markdown","source":["Se inserir uma coluna que não tem valores no dicionário inicial, o Pandas automaticamente preencherá a coluna com valores *missing*:"],"metadata":{"id":"5pqwFOrV5ixt"}},{"cell_type":"code","source":["df = pd.DataFrame(dados, columns=['Cidade', 'Nome','Idade','Gênero'])\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":676},"id":"GuZWYyxH5pEd","executionInfo":{"status":"ok","timestamp":1693179235384,"user_tz":180,"elapsed":96,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"4e7246f4-d58e-436e-d013-a22acdb3399b"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade Gênero\n","0 Cidade3 Pessoa1 18 NaN\n","1 Cidade3 Pessoa2 55 NaN\n","2 Cidade4 Pessoa3 61 NaN\n","3 Cidade4 Pessoa4 19 NaN\n","4 Cidade2 Pessoa5 20 NaN\n","5 Cidade3 Pessoa6 64 NaN\n","6 Cidade2 Pessoa7 38 NaN\n","7 Cidade4 Pessoa8 49 NaN\n","8 Cidade3 Pessoa9 58 NaN\n","9 Cidade4 Pessoa10 53 NaN\n","10 Cidade4 Pessoa11 43 NaN\n","11 Cidade5 Pessoa12 44 NaN\n","12 Cidade1 Pessoa13 34 NaN\n","13 Cidade3 Pessoa14 48 NaN\n","14 Cidade1 Pessoa15 19 NaN\n","15 Cidade3 Pessoa16 64 NaN\n","16 Cidade4 Pessoa17 44 NaN\n","17 Cidade2 Pessoa18 38 NaN\n","18 Cidade3 Pessoa19 29 NaN\n","19 Cidade2 Pessoa20 42 NaN"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdadeGênero
0Cidade3Pessoa118NaN
1Cidade3Pessoa255NaN
2Cidade4Pessoa361NaN
3Cidade4Pessoa419NaN
4Cidade2Pessoa520NaN
5Cidade3Pessoa664NaN
6Cidade2Pessoa738NaN
7Cidade4Pessoa849NaN
8Cidade3Pessoa958NaN
9Cidade4Pessoa1053NaN
10Cidade4Pessoa1143NaN
11Cidade5Pessoa1244NaN
12Cidade1Pessoa1334NaN
13Cidade3Pessoa1448NaN
14Cidade1Pessoa1519NaN
15Cidade3Pessoa1664NaN
16Cidade4Pessoa1744NaN
17Cidade2Pessoa1838NaN
18Cidade3Pessoa1929NaN
19Cidade2Pessoa2042NaN
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":32}]},{"cell_type":"markdown","source":["Por fim, toda coluna de um dataframe pode ser extraída na forma de uma Series:"],"metadata":{"id":"-EGMQAPy5tat"}},{"cell_type":"code","source":["df['Cidade']"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"ECw7ilCm5xAI","executionInfo":{"status":"ok","timestamp":1693179235384,"user_tz":180,"elapsed":96,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"482895a3-f285-44fe-bd99-ed2f1cdcd120"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0 Cidade3\n","1 Cidade3\n","2 Cidade4\n","3 Cidade4\n","4 Cidade2\n","5 Cidade3\n","6 Cidade2\n","7 Cidade4\n","8 Cidade3\n","9 Cidade4\n","10 Cidade4\n","11 Cidade5\n","12 Cidade1\n","13 Cidade3\n","14 Cidade1\n","15 Cidade3\n","16 Cidade4\n","17 Cidade2\n","18 Cidade3\n","19 Cidade2\n","Name: Cidade, dtype: object"]},"metadata":{},"execution_count":33}]},{"cell_type":"code","source":["print(type(df['Cidade']))"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"s3jGM2Ve50o0","executionInfo":{"status":"ok","timestamp":1693179235384,"user_tz":180,"elapsed":93,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"9b03fbb5-6c1f-4d94-d3b7-3138cb5dec7c"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["\n"]}]},{"cell_type":"markdown","source":["Forma alternativa de extrair uma coluna:"],"metadata":{"id":"F2afpgvD55OK"}},{"cell_type":"code","source":["df.Cidade"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"Y7xDzrf254qp","executionInfo":{"status":"ok","timestamp":1693179235384,"user_tz":180,"elapsed":90,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"3c13945b-29ff-4fb8-99cf-9750df0d9c9f"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0 Cidade3\n","1 Cidade3\n","2 Cidade4\n","3 Cidade4\n","4 Cidade2\n","5 Cidade3\n","6 Cidade2\n","7 Cidade4\n","8 Cidade3\n","9 Cidade4\n","10 Cidade4\n","11 Cidade5\n","12 Cidade1\n","13 Cidade3\n","14 Cidade1\n","15 Cidade3\n","16 Cidade4\n","17 Cidade2\n","18 Cidade3\n","19 Cidade2\n","Name: Cidade, dtype: object"]},"metadata":{},"execution_count":35}]},{"cell_type":"markdown","source":["Também pode imprimir as colunas presentes em um dataframe utilizando o atributo \"columns\":"],"metadata":{"id":"f_ZFI5KXFc6W"}},{"cell_type":"code","source":["df.columns"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"v3EVhatiFi1F","executionInfo":{"status":"ok","timestamp":1693179235384,"user_tz":180,"elapsed":87,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"107175a4-d3f7-4ced-943c-0c1c3b804342"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Index(['Cidade', 'Nome', 'Idade', 'Gênero'], dtype='object')"]},"metadata":{},"execution_count":36}]},{"cell_type":"markdown","source":["O mesmo com os índices"],"metadata":{"id":"1nnL2a1VFm1U"}},{"cell_type":"code","source":["df.index"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"BvvQGWGkFoIq","executionInfo":{"status":"ok","timestamp":1693179235384,"user_tz":180,"elapsed":85,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"39d854f2-548d-452e-ec7d-6e20c2389068"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["RangeIndex(start=0, stop=20, step=1)"]},"metadata":{},"execution_count":37}]},{"cell_type":"markdown","source":["#### Indexação, Seleção e Filtragem"],"metadata":{"id":"iSifZl2bHFVy"}},{"cell_type":"markdown","source":["A indexação, seleção e filtragem de dados são operações fundamentais ao trabalhar com Pandas para acessar informações específicas em DataFrames. Essas operações permitem que você extraia dados relevantes para análise e manipulação.\n"],"metadata":{"id":"OSwf3yi6HheQ"}},{"cell_type":"markdown","source":["Você pode selecionar colunas e valores em dataframes de forma parecida com o que já vimos em listas, utilizandos índices (i.e. [indice] ou ['coluna'])."],"metadata":{"id":"1DA6xmmvI_wK"}},{"cell_type":"code","source":["df = pd.DataFrame(dados, columns=['Cidade', 'Nome','Idade'])\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":676},"id":"mk-hEmaHJK45","executionInfo":{"status":"ok","timestamp":1693179235385,"user_tz":180,"elapsed":83,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"eb082ec3-ae3f-4b00-d6ce-dd9469dc3df5"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade\n","0 Cidade3 Pessoa1 18\n","1 Cidade3 Pessoa2 55\n","2 Cidade4 Pessoa3 61\n","3 Cidade4 Pessoa4 19\n","4 Cidade2 Pessoa5 20\n","5 Cidade3 Pessoa6 64\n","6 Cidade2 Pessoa7 38\n","7 Cidade4 Pessoa8 49\n","8 Cidade3 Pessoa9 58\n","9 Cidade4 Pessoa10 53\n","10 Cidade4 Pessoa11 43\n","11 Cidade5 Pessoa12 44\n","12 Cidade1 Pessoa13 34\n","13 Cidade3 Pessoa14 48\n","14 Cidade1 Pessoa15 19\n","15 Cidade3 Pessoa16 64\n","16 Cidade4 Pessoa17 44\n","17 Cidade2 Pessoa18 38\n","18 Cidade3 Pessoa19 29\n","19 Cidade2 Pessoa20 42"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdade
0Cidade3Pessoa118
1Cidade3Pessoa255
2Cidade4Pessoa361
3Cidade4Pessoa419
4Cidade2Pessoa520
5Cidade3Pessoa664
6Cidade2Pessoa738
7Cidade4Pessoa849
8Cidade3Pessoa958
9Cidade4Pessoa1053
10Cidade4Pessoa1143
11Cidade5Pessoa1244
12Cidade1Pessoa1334
13Cidade3Pessoa1448
14Cidade1Pessoa1519
15Cidade3Pessoa1664
16Cidade4Pessoa1744
17Cidade2Pessoa1838
18Cidade3Pessoa1929
19Cidade2Pessoa2042
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":38}]},{"cell_type":"markdown","source":["Selecionando a coluna de nomes"],"metadata":{"id":"pUemyEIOJRLY"}},{"cell_type":"code","source":["df[\"Nome\"]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"jnkpPTgjJQ7h","executionInfo":{"status":"ok","timestamp":1693179235385,"user_tz":180,"elapsed":82,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f1673436-19f4-40f9-f2c7-60d358bacb0f"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0 Pessoa1\n","1 Pessoa2\n","2 Pessoa3\n","3 Pessoa4\n","4 Pessoa5\n","5 Pessoa6\n","6 Pessoa7\n","7 Pessoa8\n","8 Pessoa9\n","9 Pessoa10\n","10 Pessoa11\n","11 Pessoa12\n","12 Pessoa13\n","13 Pessoa14\n","14 Pessoa15\n","15 Pessoa16\n","16 Pessoa17\n","17 Pessoa18\n","18 Pessoa19\n","19 Pessoa20\n","Name: Nome, dtype: object"]},"metadata":{},"execution_count":39}]},{"cell_type":"markdown","source":["Selecionando nome e idade:"],"metadata":{"id":"O0L5RtjDJd1d"}},{"cell_type":"code","source":["df[['Nome', 'Idade']]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":676},"id":"Uma5OIa5JfPS","executionInfo":{"status":"ok","timestamp":1693179236088,"user_tz":180,"elapsed":783,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"6fd46578-ccb5-43a8-daa5-aff002a27e67"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade\n","0 Pessoa1 18\n","1 Pessoa2 55\n","2 Pessoa3 61\n","3 Pessoa4 19\n","4 Pessoa5 20\n","5 Pessoa6 64\n","6 Pessoa7 38\n","7 Pessoa8 49\n","8 Pessoa9 58\n","9 Pessoa10 53\n","10 Pessoa11 43\n","11 Pessoa12 44\n","12 Pessoa13 34\n","13 Pessoa14 48\n","14 Pessoa15 19\n","15 Pessoa16 64\n","16 Pessoa17 44\n","17 Pessoa18 38\n","18 Pessoa19 29\n","19 Pessoa20 42"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdade
0Pessoa118
1Pessoa255
2Pessoa361
3Pessoa419
4Pessoa520
5Pessoa664
6Pessoa738
7Pessoa849
8Pessoa958
9Pessoa1053
10Pessoa1143
11Pessoa1244
12Pessoa1334
13Pessoa1448
14Pessoa1519
15Pessoa1664
16Pessoa1744
17Pessoa1838
18Pessoa1929
19Pessoa2042
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":40}]},{"cell_type":"markdown","source":["Pegando as duas primeiras linhas:"],"metadata":{"id":"PjB8N7nCJoNa"}},{"cell_type":"code","source":["df[0:2]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":112},"id":"XH6c5ZTmJpoo","executionInfo":{"status":"ok","timestamp":1693179236089,"user_tz":180,"elapsed":199,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"abdbc3c4-82b3-4a60-c405-6978da086c61"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade\n","0 Cidade3 Pessoa1 18\n","1 Cidade3 Pessoa2 55"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdade
0Cidade3Pessoa118
1Cidade3Pessoa255
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":41}]},{"cell_type":"markdown","source":["Utilizando testes lógicos para filtrar observações"],"metadata":{"id":"foc5rJrgJh1T"}},{"cell_type":"code","source":["df[df['Idade'] > 25]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":551},"id":"ITYP8dlkJhn0","executionInfo":{"status":"ok","timestamp":1693179236089,"user_tz":180,"elapsed":198,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"ee060935-96fa-4c7a-c97d-801ed0df6750"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade\n","1 Cidade3 Pessoa2 55\n","2 Cidade4 Pessoa3 61\n","5 Cidade3 Pessoa6 64\n","6 Cidade2 Pessoa7 38\n","7 Cidade4 Pessoa8 49\n","8 Cidade3 Pessoa9 58\n","9 Cidade4 Pessoa10 53\n","10 Cidade4 Pessoa11 43\n","11 Cidade5 Pessoa12 44\n","12 Cidade1 Pessoa13 34\n","13 Cidade3 Pessoa14 48\n","15 Cidade3 Pessoa16 64\n","16 Cidade4 Pessoa17 44\n","17 Cidade2 Pessoa18 38\n","18 Cidade3 Pessoa19 29\n","19 Cidade2 Pessoa20 42"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdade
1Cidade3Pessoa255
2Cidade4Pessoa361
5Cidade3Pessoa664
6Cidade2Pessoa738
7Cidade4Pessoa849
8Cidade3Pessoa958
9Cidade4Pessoa1053
10Cidade4Pessoa1143
11Cidade5Pessoa1244
12Cidade1Pessoa1334
13Cidade3Pessoa1448
15Cidade3Pessoa1664
16Cidade4Pessoa1744
17Cidade2Pessoa1838
18Cidade3Pessoa1929
19Cidade2Pessoa2042
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":42}]},{"cell_type":"markdown","source":["Você também pode utilizar testes lógicos em todo o banco de dados (apesar disto ser um pouco mais estranho):"],"metadata":{"id":"Egs-LOzsJ33W"}},{"cell_type":"code","source":["df == \"São Paulo\""],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":676},"id":"ViwmuEvWJ9rQ","executionInfo":{"status":"ok","timestamp":1693179236090,"user_tz":180,"elapsed":198,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"aa6314df-3254-4fb6-ee17-a21e1d99cc7d"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade\n","0 False False False\n","1 False False False\n","2 False False False\n","3 False False False\n","4 False False False\n","5 False False False\n","6 False False False\n","7 False False False\n","8 False False False\n","9 False False False\n","10 False False False\n","11 False False False\n","12 False False False\n","13 False False False\n","14 False False False\n","15 False False False\n","16 False False False\n","17 False False False\n","18 False False False\n","19 False False False"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdade
0FalseFalseFalse
1FalseFalseFalse
2FalseFalseFalse
3FalseFalseFalse
4FalseFalseFalse
5FalseFalseFalse
6FalseFalseFalse
7FalseFalseFalse
8FalseFalseFalse
9FalseFalseFalse
10FalseFalseFalse
11FalseFalseFalse
12FalseFalseFalse
13FalseFalseFalse
14FalseFalseFalse
15FalseFalseFalse
16FalseFalseFalse
17FalseFalseFalse
18FalseFalseFalse
19FalseFalseFalse
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":43}]},{"cell_type":"markdown","source":["##### Loc e Iloc"],"metadata":{"id":"yBMQaaQ76L7q"}},{"cell_type":"markdown","source":["loc e iloc são dois atributos fundamentais para a indexação e seleção de dados em Pandas DataFrames e Series. Eles são usados para acessar elementos específicos com base em rótulos (para loc) ou índices inteiros (para iloc). Vamos explorar cada um deles em detalhes."],"metadata":{"id":"SMmcseCK6NP0"}},{"cell_type":"markdown","source":["###### loc (localização):\n","\n","* loc é usado para acessar dados com base em rótulos ou rótulos de índices, em vez de posições numéricas.\n","* Ele permite que você selecione dados com base em nomes de colunas ou rótulos de índices, usando uma sintaxe semelhante à da notação de dicionário.\n","* O primeiro argumento de loc é o rótulo das linhas que você deseja selecionar, e o segundo argumento é o rótulo das colunas (opcional).\n","* Pode ser usado para seleções condicionais e fatiamento baseado em rótulos."],"metadata":{"id":"egwA_c_g6Qvm"}},{"cell_type":"code","source":["# Exemplo da documentação do loc\n","\n","df = pd.DataFrame({\n"," \"Animal\": ['cobra', 'viper', 'sidewinder'],\n"," \"Velocidade\": [1,4,7],\n"," \"Escudo\": [2,5,8]\n","})\n","\n","df\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":143},"id":"y0SzNKsv6g7z","executionInfo":{"status":"ok","timestamp":1693179236090,"user_tz":180,"elapsed":197,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"8ad24f7f-a5dc-4701-a5fb-4a58cf5bcba6"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Animal Velocidade Escudo\n","0 cobra 1 2\n","1 viper 4 5\n","2 sidewinder 7 8"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
AnimalVelocidadeEscudo
0cobra12
1viper45
2sidewinder78
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":44}]},{"cell_type":"markdown","source":["Para pegar um label só"],"metadata":{"id":"WaYJ2Ft-7Ft_"}},{"cell_type":"code","source":["# Pegando a primeira observação\n","\n","df.loc[0]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"r04_gEn_7FVH","executionInfo":{"status":"ok","timestamp":1693179236090,"user_tz":180,"elapsed":196,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"c2ac4beb-5307-4584-a5ee-10aa22f3a209"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Animal cobra\n","Velocidade 1\n","Escudo 2\n","Name: 0, dtype: object"]},"metadata":{},"execution_count":45}]},{"cell_type":"markdown","source":["Se fornecer uma lista de índices, o retorno da função será um dataframe:"],"metadata":{"id":"nR4toIXU6vKT"}},{"cell_type":"code","source":["df.loc[[0, 1]]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":112},"id":"Wf3YCpuM6znM","executionInfo":{"status":"ok","timestamp":1693179236090,"user_tz":180,"elapsed":193,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"a8f1d7a5-2bf2-427c-c6c2-60cbb1a2f40b"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Animal Velocidade Escudo\n","0 cobra 1 2\n","1 viper 4 5"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
AnimalVelocidadeEscudo
0cobra12
1viper45
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":46}]},{"cell_type":"markdown","source":["Se o índice do dataframe fosse o nome dos animais, você poderia extrair diretamente utilizando o *label*:"],"metadata":{"id":"x7CwC-8a8nO_"}},{"cell_type":"code","source":["df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],\n"," index=['cobra', 'viper', 'sidewinder'],\n"," columns=['max_speed', 'shield'])\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":143},"id":"9QzKTRJe8xIh","executionInfo":{"status":"ok","timestamp":1693179236090,"user_tz":180,"elapsed":192,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"d0aeef3e-1391-421f-b550-6b8708311323"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" max_speed shield\n","cobra 1 2\n","viper 4 5\n","sidewinder 7 8"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
max_speedshield
cobra12
viper45
sidewinder78
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":47}]},{"cell_type":"code","source":["df.loc['cobra']"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"HKhY4MZx7C0J","executionInfo":{"status":"ok","timestamp":1693179236091,"user_tz":180,"elapsed":192,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"3347def8-0dda-4bb3-e55a-ad38c8b53c15"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["max_speed 1\n","shield 2\n","Name: cobra, dtype: int64"]},"metadata":{},"execution_count":48}]},{"cell_type":"code","source":["df.loc[['cobra','viper']]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":112},"id":"empBBLBQ82Tg","executionInfo":{"status":"ok","timestamp":1693179236091,"user_tz":180,"elapsed":189,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"8923ca30-3b49-4e38-c1e1-46c4b5b05aeb"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" max_speed shield\n","cobra 1 2\n","viper 4 5"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
max_speedshield
cobra12
viper45
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":49}]},{"cell_type":"markdown","source":["E assim por diante..."],"metadata":{"id":"mRXN9Q1-85hR"}},{"cell_type":"markdown","source":["###### Iloc (indexação da localização)"],"metadata":{"id":"q4Sy6Ddq6gRc"}},{"cell_type":"markdown","source":["* iloc é usado para acessar dados com base em posições numéricas de linhas e colunas, semelhante ao uso de índices em listas.\n","* Ele não considera rótulos, apenas índices inteiros.\n","* O primeiro argumento de iloc é o índice da linha que você deseja selecionar e o segundo argumento é o índice da coluna (opcional).\n","* Pode ser usado para seleções condicionais e fatiamento baseado em índices inteiros."],"metadata":{"id":"S1tGMYRb9FKB"}},{"cell_type":"code","source":["dados = {\n"," \"Nome\": [\"Alice\", \"Bob\", \"Carol\", \"David\", \"Eva\"],\n"," \"Idade\": [25, 30, 22, 35, 28],\n"," \"Cidade\": [\"São Paulo\", \"Rio de Janeiro\", \"Belo Horizonte\", \"São Paulo\", \"Rio de Janeiro\"]\n","}\n","\n","df = pd.DataFrame(dados)\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"d5Q6vXST9Tz6","executionInfo":{"status":"ok","timestamp":1693179236091,"user_tz":180,"elapsed":179,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"6202a278-f136-44b0-f782-3ab184c0fb5b"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade\n","0 Alice 25 São Paulo\n","1 Bob 30 Rio de Janeiro\n","2 Carol 22 Belo Horizonte\n","3 David 35 São Paulo\n","4 Eva 28 Rio de Janeiro"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidade
0Alice25São Paulo
1Bob30Rio de Janeiro
2Carol22Belo Horizonte
3David35São Paulo
4Eva28Rio de Janeiro
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":50}]},{"cell_type":"code","source":["# Selecionando a primeira linha\n","df.iloc[0]\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"JZrqq7Vv9V1j","executionInfo":{"status":"ok","timestamp":1693179236091,"user_tz":180,"elapsed":178,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"c30de8a1-3393-4ebe-b830-d16ea331a380"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Nome Alice\n","Idade 25\n","Cidade São Paulo\n","Name: 0, dtype: object"]},"metadata":{},"execution_count":51}]},{"cell_type":"code","source":["\n","# Selecionando a segunda célula (1,2)\n","df.iloc[0, 1]\n","\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"7yElCehL9ZJm","executionInfo":{"status":"ok","timestamp":1693179236091,"user_tz":180,"elapsed":174,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"495f6501-c3a1-4a13-f7a8-863f9a01c441"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["25"]},"metadata":{},"execution_count":52}]},{"cell_type":"code","source":["# Selecionando as três primeiras linhas e todas as colunas\n","df.iloc[:3, :]\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":143},"id":"kMxBIKoy9aV7","executionInfo":{"status":"ok","timestamp":1693179236092,"user_tz":180,"elapsed":171,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"3d05a813-3b9d-4fad-cd95-79825139c17b"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade\n","0 Alice 25 São Paulo\n","1 Bob 30 Rio de Janeiro\n","2 Carol 22 Belo Horizonte"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidade
0Alice25São Paulo
1Bob30Rio de Janeiro
2Carol22Belo Horizonte
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":53}]},{"cell_type":"markdown","source":["##### Resumo"],"metadata":{"id":"DfhibGyqKVBO"}},{"cell_type":"markdown","source":["A tabela abaixo resume as principais opções de indexação e seleção com dataframes:"],"metadata":{"id":"EGIFFH8LKOPc"}},{"cell_type":"markdown","source":["![image.png]()"],"metadata":{"id":"521WIjgXKhjX"}},{"cell_type":"markdown","source":["#### Operações em Colunas"],"metadata":{"id":"7aGQzvj0_XhE"}},{"cell_type":"markdown","source":["Você pode modificar manualmente os valores de coluna atribuindo um valor para ela, como mostra o seguinte exemplo"],"metadata":{"id":"bk1Hj2dB_h-o"}},{"cell_type":"code","source":["df = pd.DataFrame(dados, columns=['Cidade', 'Nome','Idade','Salário'])\n","\n","df[\"Salário\"] = 1000\n","\n","df\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"T0pxCPDJ_pOc","executionInfo":{"status":"ok","timestamp":1693179236092,"user_tz":180,"elapsed":170,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"83d9373c-acc7-408d-a483-28fdc87f0543"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade Salário\n","0 São Paulo Alice 25 1000\n","1 Rio de Janeiro Bob 30 1000\n","2 Belo Horizonte Carol 22 1000\n","3 São Paulo David 35 1000\n","4 Rio de Janeiro Eva 28 1000"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdadeSalário
0São PauloAlice251000
1Rio de JaneiroBob301000
2Belo HorizonteCarol221000
3São PauloDavid351000
4Rio de JaneiroEva281000
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":54}]},{"cell_type":"markdown","source":["Você pode criar valores aleatórios e atribuir eles à coluna"],"metadata":{"id":"WgoKwHvI_6gu"}},{"cell_type":"code","source":["df['Salário'] = [random.randint(1000, 3000) for _ in range(5)] # usando list comprehension para gerar números aleatórios no intervalo de 1000 a 3000\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"4BzwRXiaAEmj","executionInfo":{"status":"ok","timestamp":1693179236092,"user_tz":180,"elapsed":169,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"851c0aea-7401-40ea-a5f9-fba6da767b98"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade Salário\n","0 São Paulo Alice 25 1964\n","1 Rio de Janeiro Bob 30 2305\n","2 Belo Horizonte Carol 22 1814\n","3 São Paulo David 35 2986\n","4 Rio de Janeiro Eva 28 1112"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdadeSalário
0São PauloAlice251964
1Rio de JaneiroBob302305
2Belo HorizonteCarol221814
3São PauloDavid352986
4Rio de JaneiroEva281112
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":55}]},{"cell_type":"markdown","source":["Desta mesma forma, também pode adicionar uma coluna vazia à um dataframe:"],"metadata":{"id":"Ho7EMgm4Aw3i"}},{"cell_type":"code","source":["df['Educação'] = np.NaN\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"vPPifG0wAzGl","executionInfo":{"status":"ok","timestamp":1693179236092,"user_tz":180,"elapsed":168,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"92eadfca-10af-4698-bcc5-fb1b389cdb8d"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade Salário Educação\n","0 São Paulo Alice 25 1964 NaN\n","1 Rio de Janeiro Bob 30 2305 NaN\n","2 Belo Horizonte Carol 22 1814 NaN\n","3 São Paulo David 35 2986 NaN\n","4 Rio de Janeiro Eva 28 1112 NaN"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdadeSalárioEducação
0São PauloAlice251964NaN
1Rio de JaneiroBob302305NaN
2Belo HorizonteCarol221814NaN
3São PauloDavid352986NaN
4Rio de JaneiroEva281112NaN
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":56}]},{"cell_type":"markdown","source":["Pode criar uma coluna por meio de operações em outras colunas:"],"metadata":{"id":"m7jN6JB9FEPJ"}},{"cell_type":"code","source":["# Calculando um aumento de 20% do salário\n","\n","df['salário_+20%'] = df['Salário'] * 1.2\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"udZkHgE7FH3R","executionInfo":{"status":"ok","timestamp":1693179237389,"user_tz":180,"elapsed":1465,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"5b9077a8-c672-401e-b8c0-b9e0472c1579"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade Salário Educação salário_+20%\n","0 São Paulo Alice 25 1964 NaN 2356.8\n","1 Rio de Janeiro Bob 30 2305 NaN 2766.0\n","2 Belo Horizonte Carol 22 1814 NaN 2176.8\n","3 São Paulo David 35 2986 NaN 3583.2\n","4 Rio de Janeiro Eva 28 1112 NaN 1334.4"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdadeSalárioEducaçãosalário_+20%
0São PauloAlice251964NaN2356.8
1Rio de JaneiroBob302305NaN2766.0
2Belo HorizonteCarol221814NaN2176.8
3São PauloDavid352986NaN3583.2
4Rio de JaneiroEva281112NaN1334.4
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":57}]},{"cell_type":"markdown","source":["Para deletar uma coluna, pode utilizar o método \"del\":"],"metadata":{"id":"jMOhd508Dt_d"}},{"cell_type":"code","source":["del df['Educação']\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"tUqOCBmWDw1A","executionInfo":{"status":"ok","timestamp":1693179237389,"user_tz":180,"elapsed":298,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"4575078f-7faa-4fb2-b43e-68ca62baaf3c"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade Salário salário_+20%\n","0 São Paulo Alice 25 1964 2356.8\n","1 Rio de Janeiro Bob 30 2305 2766.0\n","2 Belo Horizonte Carol 22 1814 2176.8\n","3 São Paulo David 35 2986 3583.2\n","4 Rio de Janeiro Eva 28 1112 1334.4"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdadeSaláriosalário_+20%
0São PauloAlice2519642356.8
1Rio de JaneiroBob3023052766.0
2Belo HorizonteCarol2218142176.8
3São PauloDavid3529863583.2
4Rio de JaneiroEva2811121334.4
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":58}]},{"cell_type":"markdown","source":["Também pode eliminar colunas utilizando o método \"drop\":"],"metadata":{"id":"Ui4p2KACGj0z"}},{"cell_type":"code","source":["df2 = df.drop(columns='Salário')\n","\n","df2"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"QLxMo0fVGpDG","executionInfo":{"status":"ok","timestamp":1693179237389,"user_tz":180,"elapsed":296,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"a4757233-015b-4818-8c63-8fb9e27ce9a9"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade salário_+20%\n","0 São Paulo Alice 25 2356.8\n","1 Rio de Janeiro Bob 30 2766.0\n","2 Belo Horizonte Carol 22 2176.8\n","3 São Paulo David 35 3583.2\n","4 Rio de Janeiro Eva 28 1334.4"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdadesalário_+20%
0São PauloAlice252356.8
1Rio de JaneiroBob302766.0
2Belo HorizonteCarol222176.8
3São PauloDavid353583.2
4Rio de JaneiroEva281334.4
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":59}]},{"cell_type":"markdown","source":["Para eliminar observações, pode utilizar o método \"drop\" (mas é necessário criar outro objeto):"],"metadata":{"id":"IlD2BEIXF4gj"}},{"cell_type":"code","source":["df2 = df.drop(4)\n","\n","df2"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":174},"id":"7vZWwdTdGAPs","executionInfo":{"status":"ok","timestamp":1693179237389,"user_tz":180,"elapsed":284,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"ad4b3ccb-4b30-47b2-ced4-53c5d3792fa4"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade Salário salário_+20%\n","0 São Paulo Alice 25 1964 2356.8\n","1 Rio de Janeiro Bob 30 2305 2766.0\n","2 Belo Horizonte Carol 22 1814 2176.8\n","3 São Paulo David 35 2986 3583.2"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdadeSaláriosalário_+20%
0São PauloAlice2519642356.8
1Rio de JaneiroBob3023052766.0
2Belo HorizonteCarol2218142176.8
3São PauloDavid3529863583.2
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":60}]},{"cell_type":"markdown","source":["Também pode tirar uma lista de valores:"],"metadata":{"id":"9GJhxRIwGVRa"}},{"cell_type":"code","source":["df3 = df2.drop([0,1])\n","\n","df3"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":112},"id":"6DJkksVsGYrX","executionInfo":{"status":"ok","timestamp":1693179237390,"user_tz":180,"elapsed":285,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"4fe316b0-4dfc-4e06-f9f0-c8e53e159906"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Cidade Nome Idade Salário salário_+20%\n","2 Belo Horizonte Carol 22 1814 2176.8\n","3 São Paulo David 35 2986 3583.2"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
CidadeNomeIdadeSaláriosalário_+20%
2Belo HorizonteCarol2218142176.8
3São PauloDavid3529863583.2
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":61}]},{"cell_type":"markdown","source":["#### Aplicando funções e utilizando o MAP"],"metadata":{"id":"cc8_aMTcGRXs"}},{"cell_type":"markdown","source":["Você pode aplicar funções em dataframes da mesma forma que o Numpy. Você pode aplicar tanto no dataframe inteiro quanto em uma coluna específica."],"metadata":{"id":"9bb-S1_x6Kxv"}},{"cell_type":"code","source":["# Criando um dataframe só de números\n","\n","dados = pd.DataFrame(np.random.standard_normal((4,3)),\n"," columns = list(\"bde\"),\n"," index = [\"São Paulo\", \"Rio de Janeiro\", \"Bahia\", \"Amazonas\"])\n","\n","dados"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":174},"id":"9CFQ91Cj6TOV","executionInfo":{"status":"ok","timestamp":1693179237390,"user_tz":180,"elapsed":284,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"73924837-c33b-4530-9667-aaedde2d4bd4"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" b d e\n","São Paulo -0.383808 -1.239598 0.499179\n","Rio de Janeiro -1.088417 -0.299615 -0.316137\n","Bahia -2.734952 0.262000 0.248584\n","Amazonas 1.615267 -0.030235 -0.820150"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
bde
São Paulo-0.383808-1.2395980.499179
Rio de Janeiro-1.088417-0.299615-0.316137
Bahia-2.7349520.2620000.248584
Amazonas1.615267-0.030235-0.820150
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":62}]},{"cell_type":"code","source":["# Usando o método abs() do numpy\n","\n","np.abs(dados)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":174},"id":"BSC2NWwr6upv","executionInfo":{"status":"ok","timestamp":1693179237390,"user_tz":180,"elapsed":283,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"a0fc00a5-e0a6-4396-cfd2-9f1718742586"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" b d e\n","São Paulo 0.383808 1.239598 0.499179\n","Rio de Janeiro 1.088417 0.299615 0.316137\n","Bahia 2.734952 0.262000 0.248584\n","Amazonas 1.615267 0.030235 0.820150"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
bde
São Paulo0.3838081.2395980.499179
Rio de Janeiro1.0884170.2996150.316137
Bahia2.7349520.2620000.248584
Amazonas1.6152670.0302350.820150
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":63}]},{"cell_type":"code","source":["# Criando uma função e aplicando ela no dataframe\n","\n","def quadrado(x):\n"," return x ** 2\n","\n","dados.apply(quadrado)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":174},"id":"pcnaWJtE68NM","executionInfo":{"status":"ok","timestamp":1693179237390,"user_tz":180,"elapsed":283,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"31f2a08e-9529-4927-e7df-f36a556e7206"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" b d e\n","São Paulo 0.147309 1.536603 0.249180\n","Rio de Janeiro 1.184651 0.089769 0.099943\n","Bahia 7.479961 0.068644 0.061794\n","Amazonas 2.609089 0.000914 0.672646"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
bde
São Paulo0.1473091.5366030.249180
Rio de Janeiro1.1846510.0897690.099943
Bahia7.4799610.0686440.061794
Amazonas2.6090890.0009140.672646
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":64}]},{"cell_type":"code","source":["# Aplicando em uma só coluna\n","\n","dados['b'].apply(quadrado)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"I4wOarQC7KM5","executionInfo":{"status":"ok","timestamp":1693179237390,"user_tz":180,"elapsed":282,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"777ef800-f936-4212-d71b-1212850b92ba"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["São Paulo 0.147309\n","Rio de Janeiro 1.184651\n","Bahia 7.479961\n","Amazonas 2.609089\n","Name: b, dtype: float64"]},"metadata":{},"execution_count":65}]},{"cell_type":"markdown","source":["#### Ordenando valores"],"metadata":{"id":"MogS7uz97ZLX"}},{"cell_type":"markdown","source":["Você pode ordenar valores no Pandas pelo Índice"],"metadata":{"id":"z94fPXK_7f3G"}},{"cell_type":"code","source":["dados.sort_index() # Neste caso, vai ordernar por ordem alfabética"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":174},"id":"NYwDTiYU7kwe","executionInfo":{"status":"ok","timestamp":1693179237391,"user_tz":180,"elapsed":194,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"a93b9bf9-dad4-42e3-bf72-ee672365806f"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" b d e\n","Amazonas 1.615267 -0.030235 -0.820150\n","Bahia -2.734952 0.262000 0.248584\n","Rio de Janeiro -1.088417 -0.299615 -0.316137\n","São Paulo -0.383808 -1.239598 0.499179"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
bde
Amazonas1.615267-0.030235-0.820150
Bahia-2.7349520.2620000.248584
Rio de Janeiro-1.088417-0.299615-0.316137
São Paulo-0.383808-1.2395980.499179
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":66}]},{"cell_type":"markdown","source":["Ou pelas colunas"],"metadata":{"id":"NpWVBhoT7q-S"}},{"cell_type":"code","source":["# Novo banco\n","\n","dados = pd.DataFrame(np.random.standard_normal((4,9)),\n"," columns = list(\"fghabcxyz\"),\n"," index = [\"São Paulo\", \"Rio de Janeiro\", \"Bahia\", \"Amazonas\"])\n","\n","dados"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":212},"id":"mQIhZJ-X7wgz","executionInfo":{"status":"ok","timestamp":1693179237391,"user_tz":180,"elapsed":193,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"3c02282d-9587-45d8-97a5-bce37b2d98f7"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" f g h a b c \\\n","São Paulo 1.022577 1.492797 0.071414 0.029688 0.331256 0.443853 \n","Rio de Janeiro 1.439898 -1.129786 0.235635 0.217949 0.005071 -0.327253 \n","Bahia -0.045757 -0.960246 -0.654577 0.270228 0.164398 -3.077879 \n","Amazonas -0.758025 -0.241740 0.725681 -0.401317 -0.102967 1.705606 \n","\n"," x y z \n","São Paulo 3.153975 0.301381 0.206233 \n","Rio de Janeiro -1.554360 0.326408 -0.149114 \n","Bahia 1.223405 -1.096877 -0.121402 \n","Amazonas 1.174856 0.138757 -0.346709 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
fghabcxyz
São Paulo1.0225771.4927970.0714140.0296880.3312560.4438533.1539750.3013810.206233
Rio de Janeiro1.439898-1.1297860.2356350.2179490.005071-0.327253-1.5543600.326408-0.149114
Bahia-0.045757-0.960246-0.6545770.2702280.164398-3.0778791.223405-1.096877-0.121402
Amazonas-0.758025-0.2417400.725681-0.401317-0.1029671.7056061.1748560.138757-0.346709
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":67}]},{"cell_type":"code","source":["# Ordenando pelas colunas\n","\n","dados.sort_index(axis=\"columns\")"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":212},"id":"eW-THtk3751B","executionInfo":{"status":"ok","timestamp":1693179237391,"user_tz":180,"elapsed":193,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"b217bcbd-2319-442a-9bf9-a4124f8b26fe"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" a b c f g h \\\n","São Paulo 0.029688 0.331256 0.443853 1.022577 1.492797 0.071414 \n","Rio de Janeiro 0.217949 0.005071 -0.327253 1.439898 -1.129786 0.235635 \n","Bahia 0.270228 0.164398 -3.077879 -0.045757 -0.960246 -0.654577 \n","Amazonas -0.401317 -0.102967 1.705606 -0.758025 -0.241740 0.725681 \n","\n"," x y z \n","São Paulo 3.153975 0.301381 0.206233 \n","Rio de Janeiro -1.554360 0.326408 -0.149114 \n","Bahia 1.223405 -1.096877 -0.121402 \n","Amazonas 1.174856 0.138757 -0.346709 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
abcfghxyz
São Paulo0.0296880.3312560.4438531.0225771.4927970.0714143.1539750.3013810.206233
Rio de Janeiro0.2179490.005071-0.3272531.439898-1.1297860.235635-1.5543600.326408-0.149114
Bahia0.2702280.164398-3.077879-0.045757-0.960246-0.6545771.223405-1.096877-0.121402
Amazonas-0.401317-0.1029671.705606-0.758025-0.2417400.7256811.1748560.138757-0.346709
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":68}]},{"cell_type":"markdown","source":["Você pode ordenar pelos valores de uma coluna:"],"metadata":{"id":"LG-AXT7D8ELe"}},{"cell_type":"code","source":["dados['a'].sort_values()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"yeFhNoLT8HWu","executionInfo":{"status":"ok","timestamp":1693179237391,"user_tz":180,"elapsed":192,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f39ff7c7-4640-4a0e-ae23-ee9d37538025"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Amazonas -0.401317\n","São Paulo 0.029688\n","Rio de Janeiro 0.217949\n","Bahia 0.270228\n","Name: a, dtype: float64"]},"metadata":{},"execution_count":69}]},{"cell_type":"code","source":["# Alternativamente\n","\n","dados.sort_values('a')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":212},"id":"M7ietQf38Wl0","executionInfo":{"status":"ok","timestamp":1693179237391,"user_tz":180,"elapsed":189,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"3cd5967f-d4cc-4b04-d207-479614b895ac"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" f g h a b c \\\n","Amazonas -0.758025 -0.241740 0.725681 -0.401317 -0.102967 1.705606 \n","São Paulo 1.022577 1.492797 0.071414 0.029688 0.331256 0.443853 \n","Rio de Janeiro 1.439898 -1.129786 0.235635 0.217949 0.005071 -0.327253 \n","Bahia -0.045757 -0.960246 -0.654577 0.270228 0.164398 -3.077879 \n","\n"," x y z \n","Amazonas 1.174856 0.138757 -0.346709 \n","São Paulo 3.153975 0.301381 0.206233 \n","Rio de Janeiro -1.554360 0.326408 -0.149114 \n","Bahia 1.223405 -1.096877 -0.121402 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
fghabcxyz
Amazonas-0.758025-0.2417400.725681-0.401317-0.1029671.7056061.1748560.138757-0.346709
São Paulo1.0225771.4927970.0714140.0296880.3312560.4438533.1539750.3013810.206233
Rio de Janeiro1.439898-1.1297860.2356350.2179490.005071-0.327253-1.5543600.326408-0.149114
Bahia-0.045757-0.960246-0.6545770.2702280.164398-3.0778791.223405-1.096877-0.121402
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":70}]},{"cell_type":"markdown","source":["#### Estatísticas Descritivas e de Resumo"],"metadata":{"id":"-8iVS7_P9H7l"}},{"cell_type":"markdown","source":["Calculando a média de uma coluna"],"metadata":{"id":"nWN7E_cp9LSv"}},{"cell_type":"code","source":["dados.f.mean()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"eKeNRlrA9RTc","executionInfo":{"status":"ok","timestamp":1693179237391,"user_tz":180,"elapsed":188,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f1bfaeb7-dc2c-49e4-d359-f81fc1698218"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0.4146730834180107"]},"metadata":{},"execution_count":71}]},{"cell_type":"markdown","source":["Alternativamente"],"metadata":{"id":"AckEVYTv9iRe"}},{"cell_type":"code","source":["dados['f'].mean()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"nBpjUBSS9jJh","executionInfo":{"status":"ok","timestamp":1693179237392,"user_tz":180,"elapsed":187,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"70ca6c7c-f6be-404f-a63b-5350b187ebf9"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0.4146730834180107"]},"metadata":{},"execution_count":72}]},{"cell_type":"markdown","source":["Obs: mean() exige pelo menos um valor que não seja *missing* na coluna."],"metadata":{"id":"yIXPYaCa9nFo"}},{"cell_type":"markdown","source":["Podemos também achar o maior valor de uma coluna (por meio do índice):"],"metadata":{"id":"GApzlLTC9wBl"}},{"cell_type":"code","source":["dados.f.idxmax()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":35},"id":"kM0s1TDq93Ef","executionInfo":{"status":"ok","timestamp":1693179238604,"user_tz":180,"elapsed":416,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"4a5a94c0-7a6c-40ef-d88e-2f831a219f7d"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["'Rio de Janeiro'"],"application/vnd.google.colaboratory.intrinsic+json":{"type":"string"}},"metadata":{},"execution_count":73}]},{"cell_type":"code","source":["# Alternativamente\n","\n","dados['f'].idxmax()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":35},"id":"k06QjjaP97mZ","executionInfo":{"status":"ok","timestamp":1693179238605,"user_tz":180,"elapsed":415,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"46cc8e04-5bfb-4d10-aacb-54c4592a098a"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["'Rio de Janeiro'"],"application/vnd.google.colaboratory.intrinsic+json":{"type":"string"}},"metadata":{},"execution_count":74}]},{"cell_type":"markdown","source":["Ou o valor mínimo"],"metadata":{"id":"9XD4qi9h-AgA"}},{"cell_type":"code","source":["dados.f.idxmin()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":35},"id":"QfJrFDPC-Bo3","executionInfo":{"status":"ok","timestamp":1693179238605,"user_tz":180,"elapsed":414,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"db1cf97e-f9fd-4dc4-eefb-247ea098da69"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["'Amazonas'"],"application/vnd.google.colaboratory.intrinsic+json":{"type":"string"}},"metadata":{},"execution_count":75}]},{"cell_type":"markdown","source":["O método describe é um dos mais utilizados, pois permite resumir boa parte das estatísticas descritivas do dataframe com um simples comando:"],"metadata":{"id":"7-XIWVsi-H-W"}},{"cell_type":"code","source":["dados.describe()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":320},"id":"xOm3PiWY-ODm","executionInfo":{"status":"ok","timestamp":1693179238605,"user_tz":180,"elapsed":413,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"610a22fe-4270-481e-e0c5-e5afcd2ce960"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" f g h a b c x \\\n","count 4.000000 4.000000 4.000000 4.000000 4.000000 4.000000 4.000000 \n","mean 0.414673 -0.209744 0.094538 0.029137 0.099440 -0.313918 0.999469 \n","std 1.001308 1.198527 0.571535 0.304995 0.189589 2.024216 1.936048 \n","min -0.758025 -1.129786 -0.654577 -0.401317 -0.102967 -3.077879 -1.554360 \n","25% -0.223824 -1.002631 -0.110084 -0.078063 -0.021938 -1.014909 0.492552 \n","50% 0.488410 -0.600993 0.153525 0.123819 0.084735 0.058300 1.199131 \n","75% 1.126907 0.191894 0.358146 0.231019 0.206112 0.759292 1.706048 \n","max 1.439898 1.492797 0.725681 0.270228 0.331256 1.705606 3.153975 \n","\n"," y z \n","count 4.000000 4.000000 \n","mean -0.082583 -0.102748 \n","std 0.681294 0.229117 \n","min -1.096877 -0.346709 \n","25% -0.170152 -0.198513 \n","50% 0.220069 -0.135258 \n","75% 0.307638 -0.039493 \n","max 0.326408 0.206233 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
fghabcxyz
count4.0000004.0000004.0000004.0000004.0000004.0000004.0000004.0000004.000000
mean0.414673-0.2097440.0945380.0291370.099440-0.3139180.999469-0.082583-0.102748
std1.0013081.1985270.5715350.3049950.1895892.0242161.9360480.6812940.229117
min-0.758025-1.129786-0.654577-0.401317-0.102967-3.077879-1.554360-1.096877-0.346709
25%-0.223824-1.002631-0.110084-0.078063-0.021938-1.0149090.492552-0.170152-0.198513
50%0.488410-0.6009930.1535250.1238190.0847350.0583001.1991310.220069-0.135258
75%1.1269070.1918940.3581460.2310190.2061120.7592921.7060480.307638-0.039493
max1.4398981.4927970.7256810.2702280.3312561.7056063.1539750.3264080.206233
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":76}]},{"cell_type":"markdown","source":["A Tabela abaixo resume a maior parte dos métodos de estatísticas descritivas e de resumo:"],"metadata":{"id":"6Ayh_sxX-eb8"}},{"cell_type":"markdown","source":["![image.png]()"],"metadata":{"id":"TpGvK1qi-idl"}},{"cell_type":"markdown","source":["#### Correlação e Covariância"],"metadata":{"id":"jo0TBvIk-ssw"}},{"cell_type":"markdown","source":["Temos alguns métodos que permitem avaliar correlação e covariância entre colunas de forma direta:"],"metadata":{"id":"TKxc2Xxm_DdK"}},{"cell_type":"code","source":["# Correlação da coluna 'a' com a coluna 'b'\n","\n","dados['a'].corr(dados['b'])"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"LB7ZW7jd_JSs","executionInfo":{"status":"ok","timestamp":1693179238605,"user_tz":180,"elapsed":412,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"b9a15479-0c09-45b8-ead1-50c99139117f"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0.49055502889540636"]},"metadata":{},"execution_count":77}]},{"cell_type":"markdown","source":["Podemos imprimir também a matriz de correlação e covariância de todo o banco de dados, se quisermos:"],"metadata":{"id":"9KinlBXt_WFL"}},{"cell_type":"code","source":["# Matriz de correlação\n","\n","dados.corr()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":351},"id":"xP_rTsvp_aY5","executionInfo":{"status":"ok","timestamp":1693179238605,"user_tz":180,"elapsed":405,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"e6c2b0b6-99a5-4bb2-f613-2923522aeb5f"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" f g h a b c x \\\n","f 1.000000 0.131880 -0.154135 0.641464 0.441828 -0.106684 -0.278090 \n","g 0.131880 1.000000 0.181428 -0.309988 0.644324 0.455076 0.839521 \n","h -0.154135 0.181428 1.000000 -0.813955 -0.600128 0.958221 -0.140747 \n","a 0.641464 -0.309988 -0.813955 1.000000 0.490555 -0.830277 -0.283674 \n","b 0.441828 0.644324 -0.600128 0.490555 1.000000 -0.357319 0.653399 \n","c -0.106684 0.455076 0.958221 -0.830277 -0.357319 1.000000 0.119242 \n","x -0.278090 0.839521 -0.140747 -0.283674 0.653399 0.119242 1.000000 \n","y 0.420300 0.421111 0.811837 -0.420902 -0.155547 0.854665 -0.102489 \n","z 0.632004 0.716813 -0.391215 0.438528 0.952849 -0.148325 0.553936 \n","\n"," y z \n","f 0.420300 0.632004 \n","g 0.421111 0.716813 \n","h 0.811837 -0.391215 \n","a -0.420902 0.438528 \n","b -0.155547 0.952849 \n","c 0.854665 -0.148325 \n","x -0.102489 0.553936 \n","y 1.000000 0.137942 \n","z 0.137942 1.000000 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
fghabcxyz
f1.0000000.131880-0.1541350.6414640.441828-0.106684-0.2780900.4203000.632004
g0.1318801.0000000.181428-0.3099880.6443240.4550760.8395210.4211110.716813
h-0.1541350.1814281.000000-0.813955-0.6001280.958221-0.1407470.811837-0.391215
a0.641464-0.309988-0.8139551.0000000.490555-0.830277-0.283674-0.4209020.438528
b0.4418280.644324-0.6001280.4905551.000000-0.3573190.653399-0.1555470.952849
c-0.1066840.4550760.958221-0.830277-0.3573191.0000000.1192420.854665-0.148325
x-0.2780900.839521-0.140747-0.2836740.6533990.1192421.000000-0.1024890.553936
y0.4203000.4211110.811837-0.420902-0.1555470.854665-0.1024891.0000000.137942
z0.6320040.716813-0.3912150.4385280.952849-0.1483250.5539360.1379421.000000
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":78}]},{"cell_type":"code","source":["# Matriz de Covariância\n","\n","dados.cov()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":351},"id":"WRSQrosx_ecY","executionInfo":{"status":"ok","timestamp":1693179238605,"user_tz":180,"elapsed":404,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"2d11c150-af8a-417c-b81f-0f44af897fb0"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" f g h a b c x \\\n","f 1.002617 0.158269 -0.088209 0.195899 0.083875 -0.216234 -0.539100 \n","g 0.158269 1.436466 0.124278 -0.113315 0.146408 1.104048 1.948029 \n","h -0.088209 0.124278 0.326653 -0.141885 -0.065028 1.108576 -0.155739 \n","a 0.195899 -0.113315 -0.141885 0.093022 0.028366 -0.512592 -0.167505 \n","b 0.083875 0.146408 -0.065028 0.028366 0.035944 -0.137128 0.239833 \n","c -0.216234 1.104048 1.108576 -0.512592 -0.137128 4.097450 0.467308 \n","x -0.539100 1.948029 -0.155739 -0.167505 0.239833 0.467308 3.748283 \n","y 0.286723 0.343858 0.316116 -0.087460 -0.020091 1.178658 -0.135185 \n","z 0.144992 0.196839 -0.051229 0.030644 0.041390 -0.068790 0.245716 \n","\n"," y z \n","f 0.286723 0.144992 \n","g 0.343858 0.196839 \n","h 0.316116 -0.051229 \n","a -0.087460 0.030644 \n","b -0.020091 0.041390 \n","c 1.178658 -0.068790 \n","x -0.135185 0.245716 \n","y 0.464162 0.021532 \n","z 0.021532 0.052495 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
fghabcxyz
f1.0026170.158269-0.0882090.1958990.083875-0.216234-0.5391000.2867230.144992
g0.1582691.4364660.124278-0.1133150.1464081.1040481.9480290.3438580.196839
h-0.0882090.1242780.326653-0.141885-0.0650281.108576-0.1557390.316116-0.051229
a0.195899-0.113315-0.1418850.0930220.028366-0.512592-0.167505-0.0874600.030644
b0.0838750.146408-0.0650280.0283660.035944-0.1371280.239833-0.0200910.041390
c-0.2162341.1040481.108576-0.512592-0.1371284.0974500.4673081.178658-0.068790
x-0.5391001.948029-0.155739-0.1675050.2398330.4673083.748283-0.1351850.245716
y0.2867230.3438580.316116-0.087460-0.0200911.178658-0.1351850.4641620.021532
z0.1449920.196839-0.0512290.0306440.041390-0.0687900.2457160.0215320.052495
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":79}]},{"cell_type":"markdown","source":["#### Valores únicos e Contagem de ocorrências"],"metadata":{"id":"IszI05UBAnYp"}},{"cell_type":"markdown","source":["Se em uma série (ou coluna do dataframe) houverem muitos valores repetidos, pode utilizar o método unique para ver quantos valores únicos realmente existem. Se estivesse trabalhando com um banco de dados em painel (*cross-sectional time-series*), você poderia se deparar com a seguinte situação:"],"metadata":{"id":"Hy_zo0ahAtaX"}},{"cell_type":"code","source":["# Exemplo de dataframe com observações repetidas\n","\n","dados = pd.DataFrame(np.random.standard_normal((16,9)),\n"," columns = list(\"fghabcxyz\"),\n"," index = [\"São Paulo\", \"São Paulo\", \"São Paulo\", \"São Paulo\",\n"," \"Rio de Janeiro\", \"Rio de Janeiro\", \"Rio de Janeiro\", \"Rio de Janeiro\",\n"," \"Bahia\", \"Bahia\", \"Bahia\",\"Bahia\",\n"," \"Amazonas\", \"Amazonas\", \"Amazonas\", \"Amazonas\"])\n","\n","dados"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":640},"id":"q89ZEHevA2SL","executionInfo":{"status":"ok","timestamp":1693179238606,"user_tz":180,"elapsed":403,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"a7ad44e6-01b2-46ce-8ec8-e51f9449a35c"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" f g h a b c \\\n","São Paulo 0.664323 1.184861 0.383780 0.143867 0.812195 0.103040 \n","São Paulo 0.214523 -0.402695 -1.770324 -0.886441 0.209151 0.866039 \n","São Paulo 0.716182 1.930404 0.823714 1.237475 -1.663921 0.847546 \n","São Paulo -1.437160 0.201392 -1.519896 -0.447850 -0.175983 -0.055107 \n","Rio de Janeiro 1.705115 -0.689666 0.134545 0.681008 -0.374179 0.600981 \n","Rio de Janeiro 0.187134 2.018913 -0.844864 0.556782 -1.067094 -0.228595 \n","Rio de Janeiro -0.376557 0.021239 -0.372819 -0.938130 -0.069948 0.677145 \n","Rio de Janeiro -0.083162 -0.105895 1.164889 -1.547337 -0.953965 -0.205647 \n","Bahia -0.967530 0.604208 -0.347085 -0.499036 0.573012 0.197807 \n","Bahia 1.053381 0.033392 -2.225249 0.352641 1.729083 0.419244 \n","Bahia -0.321728 -0.171935 0.563197 -1.747815 0.912835 -0.091437 \n","Bahia -0.054135 0.912634 -1.173538 0.205134 1.997942 -1.795110 \n","Amazonas 1.490718 0.102630 -0.250795 -0.376549 0.389303 -0.780141 \n","Amazonas -1.310531 0.525307 1.430346 0.548366 -0.458478 -0.575812 \n","Amazonas 0.723731 0.032805 -0.223663 -0.525158 1.562698 -0.357892 \n","Amazonas 0.766400 1.578308 0.324688 0.726015 -1.560864 -0.387407 \n","\n"," x y z \n","São Paulo 0.356247 0.970838 0.117627 \n","São Paulo 0.967529 -0.424679 0.041379 \n","São Paulo 0.028738 0.305845 0.151194 \n","São Paulo 2.275731 1.550338 -1.336130 \n","Rio de Janeiro -1.552967 1.936072 0.162693 \n","Rio de Janeiro -0.985260 0.510822 -0.833265 \n","Rio de Janeiro 0.123835 0.857263 0.058431 \n","Rio de Janeiro -0.374214 -1.161383 2.082187 \n","Bahia -0.849232 0.692951 0.001714 \n","Bahia -1.369206 1.052892 0.914143 \n","Bahia 0.383071 0.580436 -0.149406 \n","Bahia 1.905910 0.851747 -0.239839 \n","Amazonas 0.429009 -0.255121 0.402060 \n","Amazonas 0.038672 1.295246 -1.238116 \n","Amazonas -0.307470 0.484074 0.676844 \n","Amazonas 0.746945 -1.505453 0.174705 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
fghabcxyz
São Paulo0.6643231.1848610.3837800.1438670.8121950.1030400.3562470.9708380.117627
São Paulo0.214523-0.402695-1.770324-0.8864410.2091510.8660390.967529-0.4246790.041379
São Paulo0.7161821.9304040.8237141.237475-1.6639210.8475460.0287380.3058450.151194
São Paulo-1.4371600.201392-1.519896-0.447850-0.175983-0.0551072.2757311.550338-1.336130
Rio de Janeiro1.705115-0.6896660.1345450.681008-0.3741790.600981-1.5529671.9360720.162693
Rio de Janeiro0.1871342.018913-0.8448640.556782-1.067094-0.228595-0.9852600.510822-0.833265
Rio de Janeiro-0.3765570.021239-0.372819-0.938130-0.0699480.6771450.1238350.8572630.058431
Rio de Janeiro-0.083162-0.1058951.164889-1.547337-0.953965-0.205647-0.374214-1.1613832.082187
Bahia-0.9675300.604208-0.347085-0.4990360.5730120.197807-0.8492320.6929510.001714
Bahia1.0533810.033392-2.2252490.3526411.7290830.419244-1.3692061.0528920.914143
Bahia-0.321728-0.1719350.563197-1.7478150.912835-0.0914370.3830710.580436-0.149406
Bahia-0.0541350.912634-1.1735380.2051341.997942-1.7951101.9059100.851747-0.239839
Amazonas1.4907180.102630-0.250795-0.3765490.389303-0.7801410.429009-0.2551210.402060
Amazonas-1.3105310.5253071.4303460.548366-0.458478-0.5758120.0386721.295246-1.238116
Amazonas0.7237310.032805-0.223663-0.5251581.562698-0.357892-0.3074700.4840740.676844
Amazonas0.7664001.5783080.3246880.726015-1.560864-0.3874070.746945-1.5054530.174705
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":80}]},{"cell_type":"markdown","source":["Para contar a quantidade de ocorrências dos estados, poderia utilizar:"],"metadata":{"id":"04X8wIGPBYXp"}},{"cell_type":"code","source":["dados.index.unique()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"EHlXAH_FBcfw","executionInfo":{"status":"ok","timestamp":1693179238606,"user_tz":180,"elapsed":402,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"19cc0c4e-0f38-4659-d960-8b163a836eae"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Index(['São Paulo', 'Rio de Janeiro', 'Bahia', 'Amazonas'], dtype='object')"]},"metadata":{},"execution_count":81}]},{"cell_type":"markdown","source":["Neste caso, as observações estão no índice, por isso utiliza o método 'index' antes do 'unique'. Mas também pode ser utilizado nas colunas"],"metadata":{"id":"8SWQRaxiBgs3"}},{"cell_type":"code","source":["dados['f'].unique()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"1FMoMHj2BgVy","executionInfo":{"status":"ok","timestamp":1693179238606,"user_tz":180,"elapsed":399,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"377ff3c2-157c-4808-da8f-0cded9819817"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["array([ 0.6643233 , 0.21452288, 0.71618168, -1.43716002, 1.70511515,\n"," 0.18713378, -0.37655687, -0.08316233, -0.96752981, 1.05338131,\n"," -0.32172834, -0.05413454, 1.49071821, -1.31053141, 0.72373087,\n"," 0.76640031])"]},"metadata":{},"execution_count":82}]},{"cell_type":"markdown","source":["Como as variáveis foram extraídas de uma distribuição normal aleatória, temos muitos valores únicos. Esta função é útil quando queremos descobrir quantas unidades de análise realmente temos. Por exemplo, no caso de 'tweets', poderíamos desejar identificar a quantidade de usuários que realmente temos."],"metadata":{"id":"fSoLX_l2BqaW"}},{"cell_type":"markdown","source":["Outra função útil é o value counts, que ajuda quando queremos saber a frequência de cada grupo ou unidade de análise:"],"metadata":{"id":"-Q7PhUBbB4Nm"}},{"cell_type":"code","source":["series = pd.Series(['José', 'José','Ana','Maria','José','João'])\n","\n","series.value_counts()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"GvZ6l6DwCHm5","executionInfo":{"status":"ok","timestamp":1693179238606,"user_tz":180,"elapsed":395,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f940216f-8fdf-4f05-986b-07fe0314b201"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["José 3\n","Ana 1\n","Maria 1\n","João 1\n","dtype: int64"]},"metadata":{},"execution_count":83}]},{"cell_type":"markdown","source":["Podemos observar que temos 3 'Josés' no banco. Essa função vai ser de grande utilidade na próxima aula, quando fizermos visualizações com os bancos de dados."],"metadata":{"id":"lk74k6fCCSxa"}},{"cell_type":"markdown","source":["### Exercícios"],"metadata":{"id":"pB76DHQgnI5g"}},{"cell_type":"markdown","source":["Antes de ir aos exercícios, explore a documentação própria do Pandas ([Link](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)) sobre Dataframes"],"metadata":{"id":"np3urlXCTVgw"}},{"cell_type":"markdown","source":["1 - Considere o seguinte DataFrame:"],"metadata":{"id":"leaLDwwHp1lA"}},{"cell_type":"code","source":["dados = {\n"," 'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eva'],\n"," 'Idade': [25, 30, 22, 35, 28],\n"," 'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro']\n","}\n","\n","df = pd.DataFrame(dados)\n","\n","df"],"metadata":{"id":"zRAbyoOmp1T8"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["a) Selecione a coluna 'Nome'.\n"],"metadata":{"id":"JAibmZjgCw0g"}},{"cell_type":"code","source":["nomes = df['Nome']\n","print(nomes)"],"metadata":{"id":"j8kq98oKC4YW"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["b) Selecione a primeira linha do DataFrame.\n"],"metadata":{"id":"K5FgPXJGC2CS"}},{"cell_type":"code","source":["primeira_linha = df.iloc[0]\n","print(primeira_linha)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"luk3KTFpC7tZ","executionInfo":{"status":"ok","timestamp":1693179238607,"user_tz":180,"elapsed":386,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"47707ced-da91-4632-bfab-9445fdb3a6ab"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Nome Alice\n","Idade 25\n","Cidade São Paulo\n","Name: 0, dtype: object\n"]}]},{"cell_type":"markdown","source":["c) Selecione o valor 'Bob' da coluna 'Nome'.\n"],"metadata":{"id":"pFr6uY-kC20P"}},{"cell_type":"code","source":["nome_bob = df.loc[df['Nome'] == 'Bob', 'Nome'].values[0]\n","print(nome_bob)"],"metadata":{"id":"JHWUfNXlC9A2"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["d) Selecione as linhas onde a idade é maior que 28."],"metadata":{"id":"m7Y4_qLYC31m"}},{"cell_type":"code","source":["idade_maior_que_28 = df[df['Idade'] > 28]\n","print(idade_maior_que_28)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"9bjtUhgxDBry","executionInfo":{"status":"ok","timestamp":1693179238607,"user_tz":180,"elapsed":380,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"072449ac-567d-4cfd-d998-fbd5ccba729f"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Cidade\n","1 Bob 30 Rio de Janeiro\n","3 David 35 São Paulo\n"]}]},{"cell_type":"markdown","source":["e) Selecione as linhas onde a idade está entre 25 e 30 anos (inclusive) e a cidade é 'São Paulo':"],"metadata":{"id":"04210DpTD54d"}},{"cell_type":"code","source":["filtro = (df['Idade'] >= 25) & (df['Idade'] <= 30) & (df['Cidade'] == 'São Paulo')\n","resultados = df[filtro]\n","print(resultados)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"2fUkQuAQEATj","executionInfo":{"status":"ok","timestamp":1693179238607,"user_tz":180,"elapsed":375,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"d48014f5-60f7-45c3-8a01-9d60403eaba9"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Cidade\n","0 Alice 25 São Paulo\n"]}]},{"cell_type":"markdown","source":["f) Selecione as linhas onde o nome começa com a letra 'A' ou a idade é menor que 25:\n","\n","Dica: Você vai precisar do método de strings 'startswith()' ([Link](https://docs.python.org/3/library/stdtypes.html#str.startswith))"],"metadata":{"id":"rej3TTUyEDY_"}},{"cell_type":"code","source":["filtro = (df['Nome'].str.startswith('A')) | (df['Idade'] < 25)\n","resultados = df[filtro]\n","print(resultados)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"8MB6BAPnEKmL","executionInfo":{"status":"ok","timestamp":1693179238607,"user_tz":180,"elapsed":372,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"5dd780bc-07ef-4460-dd35-4fbf2b24acbe"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Cidade\n","0 Alice 25 São Paulo\n","2 Carol 22 Belo Horizonte\n"]}]},{"cell_type":"markdown","source":["2 - Agora vamos exercitar o uso do loc. Considere o seguinte dataframe:"],"metadata":{"id":"R273PMnp2-fE"}},{"cell_type":"code","source":["dados = {\n"," 'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eva'],\n"," 'Idade': [25, 30, 22, 35, 28],\n"," 'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro']\n","}\n","\n","df = pd.DataFrame(dados)"],"metadata":{"id":"0vbthugl3rbT"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["a) Use 'loc' para selecionar todas as linhas, mas só as colunas 'nome' e 'idade':"],"metadata":{"id":"Q16lS8o73s3r"}},{"cell_type":"code","source":["selecao_a = df.loc[:, ['Nome', 'Idade']]\n","print(selecao_a)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"8JVsU_-d3zug","executionInfo":{"status":"ok","timestamp":1693179238608,"user_tz":180,"elapsed":369,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"48a81a84-efa8-44a5-d1f0-0c658b6d9564"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade\n","0 Alice 25\n","1 Bob 30\n","2 Carol 22\n","3 David 35\n","4 Eva 28\n"]}]},{"cell_type":"markdown","source":["b) Use 'loc' para selecionar a linha com o nome 'David', mas com todas as colunas:"],"metadata":{"id":"kcQTF1Ti31vl"}},{"cell_type":"code","source":["selecao_b = df.loc[df['Nome'] == 'David', :]\n","print(selecao_b)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"OSrNE-t936lr","executionInfo":{"status":"ok","timestamp":1693179238608,"user_tz":180,"elapsed":366,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"3740151a-8116-4198-a94e-0bb9f6842992"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Cidade\n","3 David 35 São Paulo\n"]}]},{"cell_type":"markdown","source":["c) Por fim, use 'loc' para selecionar as linhas onde a idade é maior que 28 e todas as colunas:"],"metadata":{"id":"1i6zzqgR3_dZ"}},{"cell_type":"code","source":["selecao_c = df.loc[df['Idade'] > 28, :]\n","print(selecao_c)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"X5ouWLv14DgT","executionInfo":{"status":"ok","timestamp":1693179238608,"user_tz":180,"elapsed":362,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"4b6aaf51-c401-402b-a02d-e13b5c2f290f"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Cidade\n","1 Bob 30 Rio de Janeiro\n","3 David 35 São Paulo\n"]}]},{"cell_type":"markdown","source":["3 - Vamos trabalhar um pouco o iloc. Considere o mesmo dataframe do exercício 2"],"metadata":{"id":"V5Lw9rxu4IVb"}},{"cell_type":"markdown","source":["a) Use iloc para selecionar a primeira linha e todas as colunas"],"metadata":{"id":"vksjcYby4Nz7"}},{"cell_type":"code","source":["selecao_a = df.iloc[0, :]\n","print(selecao_a)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"riawGH3m4P21","executionInfo":{"status":"ok","timestamp":1693179238608,"user_tz":180,"elapsed":359,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"dc457b39-f98d-47df-ca1a-2a934d14e233"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Nome Alice\n","Idade 25\n","Cidade São Paulo\n","Name: 0, dtype: object\n"]}]},{"cell_type":"markdown","source":["b) Use iloc para selecionar a última linha e todas as colunas:"],"metadata":{"id":"CXhU-6-z4SNm"}},{"cell_type":"code","source":["selecao_b = df.iloc[-1, :]\n","print(selecao_b)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"24BUWV294TyP","executionInfo":{"status":"ok","timestamp":1693179238608,"user_tz":180,"elapsed":356,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"087a5e52-1bfd-4794-911f-6b02733254fa"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Nome Eva\n","Idade 28\n","Cidade Rio de Janeiro\n","Name: 4, dtype: object\n"]}]},{"cell_type":"markdown","source":["c) Use iloc para selecionar as três primeiras linhas e todas as colunas:"],"metadata":{"id":"_lLcJ1ho4VgQ"}},{"cell_type":"code","source":["selecao_c = df.iloc[:3, :]\n","print(selecao_c)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"AA7ZDaoS4XSs","executionInfo":{"status":"ok","timestamp":1693179238608,"user_tz":180,"elapsed":353,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"9e9e7ca0-16f5-4df4-d02a-2d2b0e59e4b5"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Cidade\n","0 Alice 25 São Paulo\n","1 Bob 30 Rio de Janeiro\n","2 Carol 22 Belo Horizonte\n"]}]},{"cell_type":"markdown","source":["4) Vamos criar o banco de novo para garantir que ele não foi modificado."],"metadata":{"id":"cK4CWWll4fO2"}},{"cell_type":"code","source":["dados = {\n"," 'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eva'],\n"," 'Idade': [25, 30, 22, 35, 28],\n"," 'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Rio de Janeiro']\n","}\n","\n","df = pd.DataFrame(dados)\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"JRaRKR8I4kLv","executionInfo":{"status":"ok","timestamp":1693179238609,"user_tz":180,"elapsed":350,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"d1501f02-b805-4486-ea5c-399b8bdc1c85"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade\n","0 Alice 25 São Paulo\n","1 Bob 30 Rio de Janeiro\n","2 Carol 22 Belo Horizonte\n","3 David 35 São Paulo\n","4 Eva 28 Rio de Janeiro"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidade
0Alice25São Paulo
1Bob30Rio de Janeiro
2Carol22Belo Horizonte
3David35São Paulo
4Eva28Rio de Janeiro
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":98}]},{"cell_type":"markdown","source":["a) Crie uma coluna de tempo de transporte até o trabalho que vai de 15 a 90 minutos. Ela tem de ser aleatoriamente gerada"],"metadata":{"id":"zIgNcXAj4mZt"}},{"cell_type":"code","source":["df['Transporte'] = [random.randint(15, 90) for _ in range(5)]\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"25tlXAPk4780","executionInfo":{"status":"ok","timestamp":1693179238609,"user_tz":180,"elapsed":349,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"ebb9287c-e132-4599-f7d2-3d36e24a24bc"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade Transporte\n","0 Alice 25 São Paulo 32\n","1 Bob 30 Rio de Janeiro 17\n","2 Carol 22 Belo Horizonte 19\n","3 David 35 São Paulo 87\n","4 Eva 28 Rio de Janeiro 47"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidadeTransporte
0Alice25São Paulo32
1Bob30Rio de Janeiro17
2Carol22Belo Horizonte19
3David35São Paulo87
4Eva28Rio de Janeiro47
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":99}]},{"cell_type":"markdown","source":["b) Crie uma coluna de gênero utilizando o método np.random.choice ([Link](https://numpy.org/doc/stable/reference/random/generated/numpy.random.choice.html))"],"metadata":{"id":"gsgl5ZnS5Gnr"}},{"cell_type":"code","source":["generos = ['masculino', 'feminino']\n","\n","df['Genero'] = np.random.choice(generos, size = len(df))\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"kW4JpUBD5THa","executionInfo":{"status":"ok","timestamp":1693179238609,"user_tz":180,"elapsed":348,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"73237a7f-fcff-43a2-b8cb-2ef96941b8b1"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade Transporte Genero\n","0 Alice 25 São Paulo 32 feminino\n","1 Bob 30 Rio de Janeiro 17 masculino\n","2 Carol 22 Belo Horizonte 19 masculino\n","3 David 35 São Paulo 87 masculino\n","4 Eva 28 Rio de Janeiro 47 masculino"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidadeTransporteGenero
0Alice25São Paulo32feminino
1Bob30Rio de Janeiro17masculino
2Carol22Belo Horizonte19masculino
3David35São Paulo87masculino
4Eva28Rio de Janeiro47masculino
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":100}]},{"cell_type":"markdown","source":["c) Crie uma coluna de salário da mesma forma que fizemos no exemplo de operações em coluna. Agora, crie uma nova coluna que mostre a razão de 'salário' e 'transporte'."],"metadata":{"id":"F4tt15Ju5nqn"}},{"cell_type":"code","source":["df['Salário'] = [random.randint(1000,3000) for _ in range(len(df))]\n","\n","df['salario/transporte'] = df['Salário'] / df['Transporte']\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":313},"id":"meqQBmdj5y12","executionInfo":{"status":"ok","timestamp":1693179238609,"user_tz":180,"elapsed":346,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"a0f32f3f-7212-4232-a38b-aadc9db71922"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade Transporte Genero Salário \\\n","0 Alice 25 São Paulo 32 feminino 1518 \n","1 Bob 30 Rio de Janeiro 17 masculino 1796 \n","2 Carol 22 Belo Horizonte 19 masculino 2941 \n","3 David 35 São Paulo 87 masculino 2078 \n","4 Eva 28 Rio de Janeiro 47 masculino 2872 \n","\n"," salario/transporte \n","0 47.437500 \n","1 105.647059 \n","2 154.789474 \n","3 23.885057 \n","4 61.106383 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidadeTransporteGeneroSaláriosalario/transporte
0Alice25São Paulo32feminino151847.437500
1Bob30Rio de Janeiro17masculino1796105.647059
2Carol22Belo Horizonte19masculino2941154.789474
3David35São Paulo87masculino207823.885057
4Eva28Rio de Janeiro47masculino287261.106383
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":101}]},{"cell_type":"markdown","source":["d) Delete a coluna da razão entre salario e transporte"],"metadata":{"id":"bvgMktqX6bx6"}},{"cell_type":"code","source":["del df['salario/transporte']\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"jkrdbWl56fMa","executionInfo":{"status":"ok","timestamp":1693179238609,"user_tz":180,"elapsed":345,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"a5bf0468-0326-4be0-9a44-3c13205eb6fb"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade Transporte Genero Salário\n","0 Alice 25 São Paulo 32 feminino 1518\n","1 Bob 30 Rio de Janeiro 17 masculino 1796\n","2 Carol 22 Belo Horizonte 19 masculino 2941\n","3 David 35 São Paulo 87 masculino 2078\n","4 Eva 28 Rio de Janeiro 47 masculino 2872"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidadeTransporteGeneroSalário
0Alice25São Paulo32feminino1518
1Bob30Rio de Janeiro17masculino1796
2Carol22Belo Horizonte19masculino2941
3David35São Paulo87masculino2078
4Eva28Rio de Janeiro47masculino2872
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":102}]},{"cell_type":"markdown","source":["5) Vamos praticar um pouco a aplicação de funções em objetos de Pandas. Considere o banco de dados:"],"metadata":{"id":"k_zXGADdAYrG"}},{"cell_type":"code","source":["dados = {\n"," 'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eva'],\n"," 'Salario': [50000, 60000, 75000, 48000, 80000],\n","}\n","\n","df = pd.DataFrame(dados)\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"OoUL_SvbAgMp","executionInfo":{"status":"ok","timestamp":1693179238609,"user_tz":180,"elapsed":344,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"42fbcb80-aaf4-48d8-b298-13acf40a2225"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Salario\n","0 Alice 50000\n","1 Bob 60000\n","2 Carol 75000\n","3 David 48000\n","4 Eva 80000"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeSalario
0Alice50000
1Bob60000
2Carol75000
3David48000
4Eva80000
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":103}]},{"cell_type":"markdown","source":["a) Faça uma função chamada \"aumento_salarial\" que recebe o salário como entrada e retorna um aumento de 15%"],"metadata":{"id":"MjczFypNAoa9"}},{"cell_type":"code","source":["def aumento_salarial(x):\n"," return x * 1.15\n","\n"],"metadata":{"id":"nJEhTIipBE6L"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["b) Aplique a função na coluna \"Salario\" utilizando \"apply\""],"metadata":{"id":"CN9C4ux9AzFV"}},{"cell_type":"code","source":["df['Salario'].apply(aumento_salarial)\n","\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"Ccdfmu5BBPQP","executionInfo":{"status":"ok","timestamp":1693179238610,"user_tz":180,"elapsed":344,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"9e814184-a566-43c3-dff3-7873a2c8e82f"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0 57500.0\n","1 69000.0\n","2 86250.0\n","3 55200.0\n","4 92000.0\n","Name: Salario, dtype: float64"]},"metadata":{},"execution_count":105}]},{"cell_type":"markdown","source":["c) Aqui está um dicionário com um mapeamento de categorias com base nos salários. Crie uma função que retorne uma categoria de acordo com o salário da pessoa. Dica -> Mckinney, 2022, P.211"],"metadata":{"id":"59LTe6CNBpbW"}},{"cell_type":"code","source":["\n","# Dicionário de Mapeamento\n","\n","mapeamento_categorias = {\n"," (0, 50000): 'Baixo',\n"," (50001, 70000): 'Médio',\n"," (70001, 80000): 'Alto'\n","}\n","\n","def mapear_categoria_salario(salario):\n"," for intervalo, categoria in mapeamento_categorias.items():\n"," if intervalo[0] <= salario <= intervalo[1]:\n"," return categoria"],"metadata":{"id":"nMVuhq-VBvY1"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["d) Aplique essa função no dataframe, criando uma nova coluna chamada \"categoria_salario\". Imprima o banco de dados"],"metadata":{"id":"8dJlhlTWAt9A"}},{"cell_type":"code","source":["df['categoria_salario'] = df[\"Salario\"].apply(mapear_categoria_salario)\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"5-glsfgCCfQv","executionInfo":{"status":"ok","timestamp":1693179238610,"user_tz":180,"elapsed":340,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"3ef1a780-4583-47b9-a4b5-e4c32dbecba9"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Salario categoria_salario\n","0 Alice 50000 Baixo\n","1 Bob 60000 Médio\n","2 Carol 75000 Alto\n","3 David 48000 Baixo\n","4 Eva 80000 Alto"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeSalariocategoria_salario
0Alice50000Baixo
1Bob60000Médio
2Carol75000Alto
3David48000Baixo
4Eva80000Alto
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":107}]},{"cell_type":"markdown","source":["6) Considere o seguinte dataframe:"],"metadata":{"id":"BDrG9NJyDTWu"}},{"cell_type":"code","source":["# Lista de nomes fictícios\n","nomes_brasileiros = ['João', 'Maria', 'Pedro', 'Ana', 'José', 'Luiza', 'Rafael', 'Fernanda', 'Gustavo', 'Carolina',\n"," 'Lucas', 'Juliana', 'Marcos', 'Camila', 'Felipe', 'Isabela', 'Mariana', 'Ricardo', 'Sandra']\n","\n","# Crie um DataFrame com 20 observações aleatórias\n","dados = {\n"," 'Nome': [random.choice(nomes_brasileiros) for _ in range(30)],\n"," 'Idade': [random.randint(20, 60) for _ in range(30)],\n"," 'Cidade': [random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Salvador', 'Brasília']) for _ in range(30)],\n"," 'Salario': [random.randint(1000,7000) for _ in range(30)]\n","}\n","\n","df = pd.DataFrame(dados)\n","\n","# Exiba o DataFrame\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"xl4VF_EaDV0W","executionInfo":{"status":"ok","timestamp":1693179238610,"user_tz":180,"elapsed":339,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"e2917421-7812-4b77-c10f-74137b589001"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Cidade Salario\n","0 Pedro 56 Rio de Janeiro 5562\n","1 Sandra 22 Salvador 5029\n","2 Ricardo 32 Brasília 1745\n","3 Mariana 48 São Paulo 3785\n","4 Fernanda 60 Brasília 6650\n","5 Gustavo 26 Belo Horizonte 1915\n","6 João 43 Belo Horizonte 1942\n","7 Mariana 20 Brasília 3806\n","8 Gustavo 53 Belo Horizonte 6869\n","9 Isabela 59 Rio de Janeiro 3353\n","10 José 48 Rio de Janeiro 5329\n","11 Ricardo 28 Brasília 1595\n","12 João 60 Brasília 1748\n","13 Fernanda 43 Salvador 6462\n","14 Isabela 39 Belo Horizonte 4726\n","15 Felipe 22 Salvador 5106\n","16 Maria 30 Salvador 2710\n","17 Camila 39 Salvador 6113\n","18 José 49 Salvador 2016\n","19 Camila 23 Belo Horizonte 5326\n","20 Luiza 34 Rio de Janeiro 2007\n","21 Juliana 34 Salvador 2269\n","22 José 45 Brasília 1768\n","23 Juliana 46 Salvador 3995\n","24 Luiza 39 Brasília 2996\n","25 João 40 São Paulo 4475\n","26 Felipe 60 Belo Horizonte 3092\n","27 Pedro 36 Brasília 3995\n","28 José 56 São Paulo 2376\n","29 Camila 33 Salvador 5074\n"]}]},{"cell_type":"markdown","source":["a) Calcule a idade média e imprima o resultado como um valor inteiro"],"metadata":{"id":"jG5aH_8_DdwF"}},{"cell_type":"code","source":["media = df.Idade.mean()\n","\n","print(int(media))"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"BmopFoOyDf7O","executionInfo":{"status":"ok","timestamp":1693179238610,"user_tz":180,"elapsed":336,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"4e0379dc-864b-4325-fee7-5b692296f3b5"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["40\n"]}]},{"cell_type":"markdown","source":["b) Calcule a mediana dos salários"],"metadata":{"id":"VsfKpfwmDrFv"}},{"cell_type":"code","source":["df.Salario.median()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"wJoRTT2ND-AB","executionInfo":{"status":"ok","timestamp":1693179238610,"user_tz":180,"elapsed":332,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"9866f7e0-1bdd-40a3-8aa6-88fc30fcf9b1"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["3795.5"]},"metadata":{},"execution_count":110}]},{"cell_type":"markdown","source":["c) Calcule o desvio padrão do salário e das idades e imprima de forma adequada usando f strings."],"metadata":{"id":"T8VNPD92EFu0"}},{"cell_type":"code","source":["desv_sal = df.Salario.std()\n","desv_idade = df.Idade.std()\n","\n","\n","print(f'O Desvio Padrão do salário é de {round(desv_sal,2)} e o da Idade é {round(desv_idade,2)}')\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"cjikRPg6EJsq","executionInfo":{"status":"ok","timestamp":1693179238611,"user_tz":180,"elapsed":329,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"8383e368-1b98-43bd-aafa-c7821a7c38f1"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["O Desvio Padrão do salário é de 1678.58 e o da Idade é 12.45\n"]}]},{"cell_type":"markdown","source":["d) Calcule a soma dos salários:"],"metadata":{"id":"O2Vlu83yEezq"}},{"cell_type":"code","source":["df.Salario.sum()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"R44fcdn_EgRL","executionInfo":{"status":"ok","timestamp":1693179238611,"user_tz":180,"elapsed":325,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"735e70d0-06c3-441d-a471-19e970614240"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["113834"]},"metadata":{},"execution_count":112}]},{"cell_type":"markdown","source":["e) Encontre o indice do maior valor da idade e imprima a linha"],"metadata":{"id":"A0_ThrDREjqA"}},{"cell_type":"code","source":["indice = df.Idade.idxmax()\n","\n","print(df.iloc[indice])"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"aa53Rih7ElzK","executionInfo":{"status":"ok","timestamp":1693179241161,"user_tz":180,"elapsed":5,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"e289a202-763e-4309-cd71-7477ab32f3a0"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Nome Fernanda\n","Idade 60\n","Cidade Brasília\n","Salario 6650\n","Name: 4, dtype: object\n"]}]},{"cell_type":"markdown","source":["f) Utilize describe para obter estatísticas descritivas de toda a tabela"],"metadata":{"id":"flP_TezfD9JS"}},{"cell_type":"code","source":["df.describe()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":300},"id":"kTNamaVtFFRQ","executionInfo":{"status":"ok","timestamp":1693057398517,"user_tz":180,"elapsed":226,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"c8ebfafd-5878-4440-fe50-b4da401f1476"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Idade Salario\n","count 30.000000 30.000000\n","mean 41.200000 3952.800000\n","std 9.263946 1775.988047\n","min 26.000000 1122.000000\n","25% 33.250000 2175.000000\n","50% 41.500000 4289.000000\n","75% 48.250000 5318.750000\n","max 57.000000 6966.000000"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
IdadeSalario
count30.00000030.000000
mean41.2000003952.800000
std9.2639461775.988047
min26.0000001122.000000
25%33.2500002175.000000
50%41.5000004289.000000
75%48.2500005318.750000
max57.0000006966.000000
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":141}]},{"cell_type":"markdown","source":["g) O describe também gera um dataframe como resultado. Atribua o resultado do describe à um objeto e selecione as linhas de '25%', '50%' e '75%'"],"metadata":{"id":"fZajY6euFcIe"}},{"cell_type":"code","source":["dados2 = df.describe()\n","\n","dados2.iloc[4:7, :]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":143},"id":"6nFGcmBBFnz1","executionInfo":{"status":"ok","timestamp":1693057489296,"user_tz":180,"elapsed":212,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"65c9712c-646a-4dfb-a697-eb10db8ad59e"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Idade Salario\n","25% 33.25 2175.00\n","50% 41.50 4289.00\n","75% 48.25 5318.75"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
IdadeSalario
25%33.252175.00
50%41.504289.00
75%48.255318.75
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":143}]},{"cell_type":"markdown","source":["e) Qual a correlação entre idade e salário?"],"metadata":{"id":"oJ1Gq2juF1tn"}},{"cell_type":"code","source":["df['Idade'].corr(df['Salario'])"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"liEOBc5RF5OK","executionInfo":{"status":"ok","timestamp":1693057565806,"user_tz":180,"elapsed":2,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"5303ade7-7968-405a-a4b9-c5fd0d8510dc"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0.22319883260726447"]},"metadata":{},"execution_count":145}]},{"cell_type":"markdown","source":["f) e a Covariância destes dois?"],"metadata":{"id":"WF2nptR-GE-q"}},{"cell_type":"code","source":["df['Idade'].cov(df['Salario'])"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"hocm73S1GHbz","executionInfo":{"status":"ok","timestamp":1693057586616,"user_tz":180,"elapsed":207,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f15f76db-995a-4f96-d789-890e20422afb"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["3672.213793103449"]},"metadata":{},"execution_count":146}]},{"cell_type":"markdown","source":["h) Quantos nomes únicos temos no dataframe?"],"metadata":{"id":"8P6kRxdYGM-P"}},{"cell_type":"code","source":["# Resposta mais simples\n","\n","df.Nome.unique()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"uFzsTPYaGPTG","executionInfo":{"status":"ok","timestamp":1693057646573,"user_tz":180,"elapsed":336,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"40725101-0509-4ddf-df9a-8fbcac85968d"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["array(['Isabela', 'Ana', 'Gustavo', 'Carolina', 'Marcos', 'Juliana',\n"," 'Rafael', 'Lucas', 'Pedro', 'Sandra', 'Luiza', 'José', 'Camila',\n"," 'Maria', 'João'], dtype=object)"]},"metadata":{},"execution_count":152}]},{"cell_type":"code","source":["# Resposta mais elaborada\n","\n","array_nomes = df.Nome.unique()\n","\n","series_nomes = pd.Series(array_nomes)\n","\n","series_nomes.value_counts().sum()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"l2fxRn2AGb5n","executionInfo":{"status":"ok","timestamp":1693057730656,"user_tz":180,"elapsed":220,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"35512841-ee98-43a4-c4c8-91200f8f8203"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["15"]},"metadata":{},"execution_count":155}]},{"cell_type":"markdown","source":["## Importando Arquivos"],"metadata":{"id":"rxPguBLJHvxi"}},{"cell_type":"markdown","source":["O Pandas é uma das bibliotecas Python mais amplamente usadas para a manipulação de dados. Uma das tarefas mais comuns ao trabalhar com dados é importar dados de diferentes fontes, como arquivos CSV, Excel, SQL e muitos outros formatos. O Pandas facilita a importação desses dados em DataFrames, que são similares à planilhas. Agora, finalmente podemos trabalhar com dados reais.\n"],"metadata":{"id":"--SkJDtGJIF_"}},{"cell_type":"markdown","source":["### 1 - Instalar e importar o Pandas\n","\n","O primeiro passo é instalar e importar o Pandas. Como estamos trabalhando no colab, o Pandas já vem instalado. E para importar, fazemos do mesmo modo de sempre."],"metadata":{"id":"HyrAt_1BJxYw"}},{"cell_type":"code","source":["import pandas as pd"],"metadata":{"id":"_XmOIZ8xJ54x"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["### 2 - Escolher o método de importação\n","\n","O Pandas oferece diversos métodos de importação, cada um adequado a diferentes tipos de fontes de dados. Alguns dos métodos de importação mais comuns incluem:\n","\n","* pd.read_csv(): Para importar dados de arquivos CSV.\n","* pd.read_excel(): Para importar dados de arquivos Excel (XLSX).\n","* pd.read_stata(): Para importar dados de arquivos no formato do Stata;\n","* pd.read_sql(): Para importar dados de bancos de dados SQL.\n","* pd.read_json(): Para importar dados de arquivos JSON.\n","* pd.read_html(): Para importar dados de páginas da web HTML (usando o Pandas HTML reader)."],"metadata":{"id":"dm5zSlNgJ7au"}},{"cell_type":"markdown","source":["### 3 - Especificar o caminho do arquivo e realizar a importação\n","\n","Se você estivesse trabalhando direto do seu computador (com VScode, Spyder) , poderia fazer do seguinte modo:"],"metadata":{"id":"bJyYi6ooKPx9"}},{"cell_type":"code","source":["caminho_arquivo = 'caminho/do/seu/arquivo.csv'\n","\n","df = pd.read_csv(caminho_arquivo)"],"metadata":{"id":"E9eFuByiKV5C"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["No entanto, estamos no Colab. Aqui há duas maneiras:\n","\n","a) Inserir manualmente o arquivo dentro do Colab.\n","\n","No lado esquerdo da interface do Colab, há uma aba chamada \"Arquivos\", com o formato de uma pasta. Ao clicar nela há algumas opções imediatamente abaixo de \"arquivos\". Uma delas é a de \"Fazer upload para o armazenamento da sessão\". A partir dela poderia inserir diretamente um arquivo do seu computador dentro do colab, que poderia ser chamado do mesmo modo que especificado acima. No entanto, o Colab também nos dá algumas amostras que podemos importar sem baixar nada. Na mesma seção de \"Arquivos\" há uma subpasta chamada \"sample_data\", que podemos utilizar diretamente."],"metadata":{"id":"ukCkihAEKcIT"}},{"cell_type":"code","source":["caminho_arquivo = 'sample_data/mnist_train_small.csv'\n","\n","df = pd.read_csv(caminho_arquivo)\n","\n","df.head()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":236},"id":"KNbK3BtkLJ3B","executionInfo":{"status":"ok","timestamp":1693059049710,"user_tz":180,"elapsed":2587,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"ce2b98dd-2336-4e8e-8203-cddd99d9f561"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" 6 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 ... 0.581 0.582 0.583 \\\n","0 5 0 0 0 0 0 0 0 0 0 ... 0 0 0 \n","1 7 0 0 0 0 0 0 0 0 0 ... 0 0 0 \n","2 9 0 0 0 0 0 0 0 0 0 ... 0 0 0 \n","3 5 0 0 0 0 0 0 0 0 0 ... 0 0 0 \n","4 2 0 0 0 0 0 0 0 0 0 ... 0 0 0 \n","\n"," 0.584 0.585 0.586 0.587 0.588 0.589 0.590 \n","0 0 0 0 0 0 0 0 \n","1 0 0 0 0 0 0 0 \n","2 0 0 0 0 0 0 0 \n","3 0 0 0 0 0 0 0 \n","4 0 0 0 0 0 0 0 \n","\n","[5 rows x 785 columns]"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
600.10.20.30.40.50.60.70.8...0.5810.5820.5830.5840.5850.5860.5870.5880.5890.590
05000000000...0000000000
17000000000...0000000000
29000000000...0000000000
35000000000...0000000000
42000000000...0000000000
\n","

5 rows × 785 columns

\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":158}]},{"cell_type":"markdown","source":["É um banco um pouco esotérico, vamos ver o banco do setor imobiliário da California"],"metadata":{"id":"ka3MH_KrLd0y"}},{"cell_type":"code","source":["caminho_arquivo = 'sample_data/california_housing_train.csv'\n","\n","df = pd.read_csv(caminho_arquivo)\n","\n","df.head()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"LmPpzIudLc7X","executionInfo":{"status":"ok","timestamp":1693059052510,"user_tz":180,"elapsed":218,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"3c04dd09-3f1b-4866-f15a-c35038bd7a14"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" longitude latitude housing_median_age total_rooms total_bedrooms \\\n","0 -114.31 34.19 15.0 5612.0 1283.0 \n","1 -114.47 34.40 19.0 7650.0 1901.0 \n","2 -114.56 33.69 17.0 720.0 174.0 \n","3 -114.57 33.64 14.0 1501.0 337.0 \n","4 -114.57 33.57 20.0 1454.0 326.0 \n","\n"," population households median_income median_house_value \n","0 1015.0 472.0 1.4936 66900.0 \n","1 1129.0 463.0 1.8200 80100.0 \n","2 333.0 117.0 1.6509 85700.0 \n","3 515.0 226.0 3.1917 73400.0 \n","4 624.0 262.0 1.9250 65500.0 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
longitudelatitudehousing_median_agetotal_roomstotal_bedroomspopulationhouseholdsmedian_incomemedian_house_value
0-114.3134.1915.05612.01283.01015.0472.01.493666900.0
1-114.4734.4019.07650.01901.01129.0463.01.820080100.0
2-114.5633.6917.0720.0174.0333.0117.01.650985700.0
3-114.5733.6414.01501.0337.0515.0226.03.191773400.0
4-114.5733.5720.01454.0326.0624.0262.01.925065500.0
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":159}]},{"cell_type":"markdown","source":["Da mesma forma que vimos anteriormente, podemos explorar os dados utilizando describe (ou info(), que não utilizamos antes)"],"metadata":{"id":"ge5a0Qn_Loog"}},{"cell_type":"code","source":["df.describe()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":320},"id":"k6Lh6R8-Lz9N","executionInfo":{"status":"ok","timestamp":1693059076814,"user_tz":180,"elapsed":704,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f5d4a8ac-1c01-4cc5-bbe3-7b77a2e2a4c2"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" longitude latitude housing_median_age total_rooms \\\n","count 17000.000000 17000.000000 17000.000000 17000.000000 \n","mean -119.562108 35.625225 28.589353 2643.664412 \n","std 2.005166 2.137340 12.586937 2179.947071 \n","min -124.350000 32.540000 1.000000 2.000000 \n","25% -121.790000 33.930000 18.000000 1462.000000 \n","50% -118.490000 34.250000 29.000000 2127.000000 \n","75% -118.000000 37.720000 37.000000 3151.250000 \n","max -114.310000 41.950000 52.000000 37937.000000 \n","\n"," total_bedrooms population households median_income \\\n","count 17000.000000 17000.000000 17000.000000 17000.000000 \n","mean 539.410824 1429.573941 501.221941 3.883578 \n","std 421.499452 1147.852959 384.520841 1.908157 \n","min 1.000000 3.000000 1.000000 0.499900 \n","25% 297.000000 790.000000 282.000000 2.566375 \n","50% 434.000000 1167.000000 409.000000 3.544600 \n","75% 648.250000 1721.000000 605.250000 4.767000 \n","max 6445.000000 35682.000000 6082.000000 15.000100 \n","\n"," median_house_value \n","count 17000.000000 \n","mean 207300.912353 \n","std 115983.764387 \n","min 14999.000000 \n","25% 119400.000000 \n","50% 180400.000000 \n","75% 265000.000000 \n","max 500001.000000 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
longitudelatitudehousing_median_agetotal_roomstotal_bedroomspopulationhouseholdsmedian_incomemedian_house_value
count17000.00000017000.00000017000.00000017000.00000017000.00000017000.00000017000.00000017000.00000017000.000000
mean-119.56210835.62522528.5893532643.664412539.4108241429.573941501.2219413.883578207300.912353
std2.0051662.13734012.5869372179.947071421.4994521147.852959384.5208411.908157115983.764387
min-124.35000032.5400001.0000002.0000001.0000003.0000001.0000000.49990014999.000000
25%-121.79000033.93000018.0000001462.000000297.000000790.000000282.0000002.566375119400.000000
50%-118.49000034.25000029.0000002127.000000434.0000001167.000000409.0000003.544600180400.000000
75%-118.00000037.72000037.0000003151.250000648.2500001721.000000605.2500004.767000265000.000000
max-114.31000041.95000052.00000037937.0000006445.00000035682.0000006082.00000015.000100500001.000000
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":160}]},{"cell_type":"markdown","source":["Temos 17 mil observações, com bastante variação nos dados"],"metadata":{"id":"7MVROzH9L25Y"}},{"cell_type":"code","source":["df.info()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"qrECwWYFL7Zb","executionInfo":{"status":"ok","timestamp":1693059105794,"user_tz":180,"elapsed":2,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"6f150c59-8589-4589-edb4-5f3da1bb2ce2"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["\n","RangeIndex: 17000 entries, 0 to 16999\n","Data columns (total 9 columns):\n"," # Column Non-Null Count Dtype \n","--- ------ -------------- ----- \n"," 0 longitude 17000 non-null float64\n"," 1 latitude 17000 non-null float64\n"," 2 housing_median_age 17000 non-null float64\n"," 3 total_rooms 17000 non-null float64\n"," 4 total_bedrooms 17000 non-null float64\n"," 5 population 17000 non-null float64\n"," 6 households 17000 non-null float64\n"," 7 median_income 17000 non-null float64\n"," 8 median_house_value 17000 non-null float64\n","dtypes: float64(9)\n","memory usage: 1.2 MB\n"]}]},{"cell_type":"markdown","source":["Pelo info, podemos ver que não temos valores nulos e todos são do tipo float."],"metadata":{"id":"M8YLvAcSL9zM"}},{"cell_type":"markdown","source":["B) Uma outra opção no colab é o de \"montar o seu Drive\" dentro dele, para que possa acessar seus arquivos diretamente sem ficar inserindo eles na seção do Colab toda vez que entra nele. Ao rodar o seguinte código, ele vai te pedir permissão para acessar seu drive."],"metadata":{"id":"tyYE9oxDMB2s"}},{"cell_type":"code","source":["from google.colab import drive\n","\n","drive.mount('/content/drive')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"_K3-XFcHML86","executionInfo":{"status":"ok","timestamp":1693059586480,"user_tz":180,"elapsed":17470,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"1dc6671e-fa78-413d-a6e9-0cbd94c45d53"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Mounted at /content/drive\n"]}]},{"cell_type":"markdown","source":["Por exemplo, digamos que seus dados estivessem na pasta 'projeto\" dentro da pasta \"meu drive\"."],"metadata":{"id":"GDtbZM-pMcRH"}},{"cell_type":"code","source":["caminho = 'content/drive/MyDrive/projeto/dados.csv'\n","\n","df = pd.read_csv(caminho)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":373},"id":"Fy0WNVW1Mj4a","executionInfo":{"status":"error","timestamp":1693059586480,"user_tz":180,"elapsed":4,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"c7ddd5e0-7ad7-4136-9b40-3af3878b659c"},"execution_count":null,"outputs":[{"output_type":"error","ename":"FileNotFoundError","evalue":"ignored","traceback":["\u001b[0;31m---------------------------------------------------------------------------\u001b[0m","\u001b[0;31mFileNotFoundError\u001b[0m Traceback (most recent call last)","\u001b[0;32m\u001b[0m in \u001b[0;36m\u001b[0;34m()\u001b[0m\n\u001b[1;32m 1\u001b[0m \u001b[0mcaminho\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0;34m'content/drive/MyDrive/projeto/dados.csv'\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 2\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m----> 3\u001b[0;31m \u001b[0mdf\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mpd\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mread_csv\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mcaminho\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/util/_decorators.py\u001b[0m in \u001b[0;36mwrapper\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m 209\u001b[0m \u001b[0;32melse\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 210\u001b[0m \u001b[0mkwargs\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0mnew_arg_name\u001b[0m\u001b[0;34m]\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mnew_arg_value\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 211\u001b[0;31m \u001b[0;32mreturn\u001b[0m \u001b[0mfunc\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m*\u001b[0m\u001b[0margs\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 212\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 213\u001b[0m \u001b[0;32mreturn\u001b[0m \u001b[0mcast\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mF\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mwrapper\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/util/_decorators.py\u001b[0m in \u001b[0;36mwrapper\u001b[0;34m(*args, **kwargs)\u001b[0m\n\u001b[1;32m 329\u001b[0m \u001b[0mstacklevel\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mfind_stack_level\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 330\u001b[0m )\n\u001b[0;32m--> 331\u001b[0;31m \u001b[0;32mreturn\u001b[0m \u001b[0mfunc\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m*\u001b[0m\u001b[0margs\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwargs\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 332\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 333\u001b[0m \u001b[0;31m# error: \"Callable[[VarArg(Any), KwArg(Any)], Any]\" has no\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/io/parsers/readers.py\u001b[0m in \u001b[0;36mread_csv\u001b[0;34m(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, encoding_errors, dialect, error_bad_lines, warn_bad_lines, on_bad_lines, delim_whitespace, low_memory, memory_map, float_precision, storage_options)\u001b[0m\n\u001b[1;32m 948\u001b[0m \u001b[0mkwds\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mupdate\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkwds_defaults\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 949\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 950\u001b[0;31m \u001b[0;32mreturn\u001b[0m \u001b[0m_read\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfilepath_or_buffer\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mkwds\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 951\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 952\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/io/parsers/readers.py\u001b[0m in \u001b[0;36m_read\u001b[0;34m(filepath_or_buffer, kwds)\u001b[0m\n\u001b[1;32m 603\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 604\u001b[0m \u001b[0;31m# Create the parser.\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 605\u001b[0;31m \u001b[0mparser\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mTextFileReader\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfilepath_or_buffer\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m**\u001b[0m\u001b[0mkwds\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 606\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 607\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0mchunksize\u001b[0m \u001b[0;32mor\u001b[0m \u001b[0miterator\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/io/parsers/readers.py\u001b[0m in \u001b[0;36m__init__\u001b[0;34m(self, f, engine, **kwds)\u001b[0m\n\u001b[1;32m 1440\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 1441\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mhandles\u001b[0m\u001b[0;34m:\u001b[0m \u001b[0mIOHandles\u001b[0m \u001b[0;34m|\u001b[0m \u001b[0;32mNone\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0;32mNone\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 1442\u001b[0;31m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_engine\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_make_engine\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mf\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mengine\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 1443\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 1444\u001b[0m \u001b[0;32mdef\u001b[0m \u001b[0mclose\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m)\u001b[0m \u001b[0;34m->\u001b[0m \u001b[0;32mNone\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/io/parsers/readers.py\u001b[0m in \u001b[0;36m_make_engine\u001b[0;34m(self, f, engine)\u001b[0m\n\u001b[1;32m 1733\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0;34m\"b\"\u001b[0m \u001b[0;32mnot\u001b[0m \u001b[0;32min\u001b[0m \u001b[0mmode\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 1734\u001b[0m \u001b[0mmode\u001b[0m \u001b[0;34m+=\u001b[0m \u001b[0;34m\"b\"\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 1735\u001b[0;31m self.handles = get_handle(\n\u001b[0m\u001b[1;32m 1736\u001b[0m \u001b[0mf\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 1737\u001b[0m \u001b[0mmode\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/io/common.py\u001b[0m in \u001b[0;36mget_handle\u001b[0;34m(path_or_buf, mode, encoding, compression, memory_map, is_text, errors, storage_options)\u001b[0m\n\u001b[1;32m 854\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0mioargs\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mencoding\u001b[0m \u001b[0;32mand\u001b[0m \u001b[0;34m\"b\"\u001b[0m \u001b[0;32mnot\u001b[0m \u001b[0;32min\u001b[0m \u001b[0mioargs\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mmode\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 855\u001b[0m \u001b[0;31m# Encoding\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 856\u001b[0;31m handle = open(\n\u001b[0m\u001b[1;32m 857\u001b[0m \u001b[0mhandle\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 858\u001b[0m \u001b[0mioargs\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mmode\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;31mFileNotFoundError\u001b[0m: [Errno 2] No such file or directory: 'content/drive/MyDrive/projeto/dados.csv'"]}]},{"cell_type":"markdown","source":["Aqui o código vai dar erro, por que nem a pasta nem os dados existem. Agora, vamos tentar acessar o .csv que deixei na pasta da semana 4. Note que não é preciso atribuir o caminho, sendo possível colocá-lo diretamente dentro do 'read_csv'."],"metadata":{"id":"pbUo0Ze5Mzx_"}},{"cell_type":"code","source":["# Vespertino\n","\n","df = pd.read_csv('/content/drive/MyDrive/FLS6513 FLP0422 - Alunos (Vespertino)/Semana 4 (28-08)/wti-monthly.csv')\n","\n","# Noturno\n","\n","# df = pd.read_csv('/content/drive/MyDrive/FLS6513 FLP0422 - Alunos (Noturno)/Semana 4 (28-08)/wti-monthly.csv')\n","\n","df.head()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"nDIbDPh9NQUF","executionInfo":{"status":"ok","timestamp":1693059657639,"user_tz":180,"elapsed":215,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"096669d2-5ffc-4294-f8b6-b6ed057b1503"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Date Price\n","0 1986-01-15 22.93\n","1 1986-02-15 15.46\n","2 1986-03-15 12.61\n","3 1986-04-15 12.84\n","4 1986-05-15 15.38"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
DatePrice
01986-01-1522.93
11986-02-1515.46
21986-03-1512.61
31986-04-1512.84
41986-05-1515.38
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":167}]},{"cell_type":"markdown","source":["Esses dados se referem ao preço do petróleo como catalogado no WTI (Western Texas Intermediate) disponível no seguinte [link](https://github.com/datasets/oil-prices)."],"metadata":{"id":"WZqWQsR5OIZy"}},{"cell_type":"markdown","source":["Uma terceira opção, que não é relacionada diretamente com o Colab, nos permite importar bancos de dados diretamente da internet, como, por exemplo, dados que estão no Github. Primeiro, vá no link que forneci acima. Clique na pasta \"data\", escolha um .csv e clique nele. Procure do lado direito um botão nomeado como \"raw\". Por fim, copie o url dele e o use para carregar bancos de dados diretamente do github."],"metadata":{"id":"PS4k-v1oOi3z"}},{"cell_type":"code","source":["caminho = 'https://raw.githubusercontent.com/datasets/oil-prices/main/data/wti-daily.csv'\n","\n","df = pd.read_csv(caminho, index_col=0)\n","\n","df.head()\n","\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":238},"id":"IqM5vvW4Ozuy","executionInfo":{"status":"ok","timestamp":1693060088771,"user_tz":180,"elapsed":553,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"4ea07c0f-19b3-4b49-a067-d7ce095b728f"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Price\n","Date \n","1986-01-02 25.56\n","1986-01-03 26.00\n","1986-01-06 26.53\n","1986-01-07 25.85\n","1986-01-08 25.87"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
Price
Date
1986-01-0225.56
1986-01-0326.00
1986-01-0626.53
1986-01-0725.85
1986-01-0825.87
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":168}]},{"cell_type":"markdown","source":["No capítulo 6 do livro texto obrigatório, o autor discorre sobre várias formas de importação com diversos tipos de arquivos, introduzindo um pouco até o webscraping. Como esse não é o intuito da aula, pararemos por aqui. Ele também mostra alguns arquivos com problemas comuns e como solucionar eles. Insistimos que leiam sobre os principais erros que podem encontrar pois podem ser soluções utéis."],"metadata":{"id":"NRZImg9UQD45"}},{"cell_type":"markdown","source":["### Exercícios"],"metadata":{"id":"Q7mAUlWATFvF"}},{"cell_type":"markdown","source":["1 - Baixe o seguinte banco de dados do [Kaggle](https://www.kaggle.com/datasets/zynicide/wine-reviews?resource=download) e o importe no Colab utilizando o primeiro modo ensinado. Isto é, ir em arquivos e inseri-lo manualmente. Dica: Depois de inseri-lo, pode copiar o caminho clicando com o botão direito em cima do .csv no colab"],"metadata":{"id":"dkWjgZhWTHub"}},{"cell_type":"code","source":["caminho_arquivo = '/content/winemag-data-130k-v2.csv'\n","\n","df = pd.read_csv(caminho_arquivo)\n","\n","df.head()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":660},"id":"72g8jGdzQlPv","executionInfo":{"status":"ok","timestamp":1693251699597,"user_tz":180,"elapsed":1424,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}},"outputId":"d2d6a947-2a04-4fe2-8a25-ecbb4a39484b"},"execution_count":11,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Unnamed: 0 country description \\\n","0 0 Italy Aromas include tropical fruit, broom, brimston... \n","1 1 Portugal This is ripe and fruity, a wine that is smooth... \n","2 2 US Tart and snappy, the flavors of lime flesh and... \n","3 3 US Pineapple rind, lemon pith and orange blossom ... \n","4 4 US Much like the regular bottling from 2012, this... \n","\n"," designation points price province \\\n","0 Vulkà Bianco 87 NaN Sicily & Sardinia \n","1 Avidagos 87 15.0 Douro \n","2 NaN 87 14.0 Oregon \n","3 Reserve Late Harvest 87 13.0 Michigan \n","4 Vintner's Reserve Wild Child Block 87 65.0 Oregon \n","\n"," region_1 region_2 taster_name \\\n","0 Etna NaN Kerin O’Keefe \n","1 NaN NaN Roger Voss \n","2 Willamette Valley Willamette Valley Paul Gregutt \n","3 Lake Michigan Shore NaN Alexander Peartree \n","4 Willamette Valley Willamette Valley Paul Gregutt \n","\n"," taster_twitter_handle title \\\n","0 @kerinokeefe Nicosia 2013 Vulkà Bianco (Etna) \n","1 @vossroger Quinta dos Avidagos 2011 Avidagos Red (Douro) \n","2 @paulgwine  Rainstorm 2013 Pinot Gris (Willamette Valley) \n","3 NaN St. Julian 2013 Reserve Late Harvest Riesling ... \n","4 @paulgwine  Sweet Cheeks 2012 Vintner's Reserve Wild Child... \n","\n"," variety winery \n","0 White Blend Nicosia \n","1 Portuguese Red Quinta dos Avidagos \n","2 Pinot Gris Rainstorm \n","3 Riesling St. Julian \n","4 Pinot Noir Sweet Cheeks "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
Unnamed: 0countrydescriptiondesignationpointspriceprovinceregion_1region_2taster_nametaster_twitter_handletitlevarietywinery
00ItalyAromas include tropical fruit, broom, brimston...Vulkà Bianco87NaNSicily & SardiniaEtnaNaNKerin O’Keefe@kerinokeefeNicosia 2013 Vulkà Bianco (Etna)White BlendNicosia
11PortugalThis is ripe and fruity, a wine that is smooth...Avidagos8715.0DouroNaNNaNRoger Voss@vossrogerQuinta dos Avidagos 2011 Avidagos Red (Douro)Portuguese RedQuinta dos Avidagos
22USTart and snappy, the flavors of lime flesh and...NaN8714.0OregonWillamette ValleyWillamette ValleyPaul Gregutt@paulgwineRainstorm 2013 Pinot Gris (Willamette Valley)Pinot GrisRainstorm
33USPineapple rind, lemon pith and orange blossom ...Reserve Late Harvest8713.0MichiganLake Michigan ShoreNaNAlexander PeartreeNaNSt. Julian 2013 Reserve Late Harvest Riesling ...RieslingSt. Julian
44USMuch like the regular bottling from 2012, this...Vintner's Reserve Wild Child Block8765.0OregonWillamette ValleyWillamette ValleyPaul Gregutt@paulgwineSweet Cheeks 2012 Vintner's Reserve Wild Child...Pinot NoirSweet Cheeks
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":11}]},{"cell_type":"markdown","source":["a) Traga as principais estatísticas descritivas do banco"],"metadata":{"id":"K4o-Z1ieUTkV"}},{"cell_type":"code","source":["df.describe()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":300},"id":"qXld-ihLUYrD","executionInfo":{"status":"ok","timestamp":1693251703132,"user_tz":180,"elapsed":364,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}},"outputId":"51d6453f-2f69-4a7f-9252-182e35d5a1dd"},"execution_count":12,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Unnamed: 0 points price\n","count 129971.000000 129971.000000 120975.000000\n","mean 64985.000000 88.447138 35.363389\n","std 37519.540256 3.039730 41.022218\n","min 0.000000 80.000000 4.000000\n","25% 32492.500000 86.000000 17.000000\n","50% 64985.000000 88.000000 25.000000\n","75% 97477.500000 91.000000 42.000000\n","max 129970.000000 100.000000 3300.000000"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
Unnamed: 0pointsprice
count129971.000000129971.000000120975.000000
mean64985.00000088.44713835.363389
std37519.5402563.03973041.022218
min0.00000080.0000004.000000
25%32492.50000086.00000017.000000
50%64985.00000088.00000025.000000
75%97477.50000091.00000042.000000
max129970.000000100.0000003300.000000
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":12}]},{"cell_type":"markdown","source":["b) Qual a origem mais comum dos vinhos? (Top 5)"],"metadata":{"id":"7XL0RZWkUda3"}},{"cell_type":"code","source":["df.country.value_counts()[:5]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"7IGM3lb-Ug3W","executionInfo":{"status":"ok","timestamp":1693061377197,"user_tz":180,"elapsed":2,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"e5fa3fe6-4ecf-45af-be91-9ed63b235d83"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["US 19216\n","France 7937\n","Italy 7163\n","Spain 2363\n","Portugal 2074\n","Name: country, dtype: int64"]},"metadata":{},"execution_count":178}]},{"cell_type":"markdown","source":["c) Qual o preço médio?"],"metadata":{"id":"FHz83CJbQh2a"}},{"cell_type":"code","source":["df.price.mean()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"LyyfxBtlU39a","executionInfo":{"status":"ok","timestamp":1693061454838,"user_tz":180,"elapsed":2,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"5e547a86-32e4-4ced-a74d-172b18d9f46e"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["35.33328695006841"]},"metadata":{},"execution_count":179}]},{"cell_type":"markdown","source":["d) Quem é o sommelier que mais aparece no banco?"],"metadata":{"id":"GhqqSKtGVDYS"}},{"cell_type":"code","source":["df.taster_name.value_counts()[:1]"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"lB-cYlnyVGPR","executionInfo":{"status":"ok","timestamp":1693061526972,"user_tz":180,"elapsed":225,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"77d5f719-a114-4b1d-f15f-c1025d328ae3"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["Roger Voss 9213\n","Name: taster_name, dtype: int64"]},"metadata":{},"execution_count":180}]},{"cell_type":"markdown","source":["2) Baixe os arquivos com os resultados das [eleições](https://sig.tse.jus.br/ords/dwapr/r/seai/sig-eleicao-resultados/resultado-da-eleição?p0_abrangencia=UF&clear=RP&session=6209947300226) de 2022 por UF e importe no Pandas da mesma forma que o 1. Dicas: Problemas no [delimiter](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) e no [encoding](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) (encoding = 'latin-1')"],"metadata":{"id":"Xou5HshPVPgt"}},{"cell_type":"code","source":["caminho_arquivo = '/content/votacao_candidato-uf_2022.csv'\n","\n","df = pd.read_csv(caminho_arquivo,\n"," delimiter = ';',\n"," encoding = 'latin-1')\n","\n","df.head()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":400},"id":"fOqU-DvfWDS6","executionInfo":{"status":"ok","timestamp":1693063996279,"user_tz":180,"elapsed":703,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"bcdfc014-d8d2-43b1-e872-fd9134dc6d33"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" sg_uf cd_cargo ds_cargo nr_candidato nm_candidato \\\n","0 AC 1 Presidente 22 JAIR MESSIAS BOLSONARO \n","1 AC 1 Presidente 13 LUIZ INÁCIO LULA DA SILVA \n","2 AC 1 Presidente 15 SIMONE NASSAR TEBET \n","3 AC 1 Presidente 12 CIRO FERREIRA GOMES \n","4 AC 1 Presidente 44 SORAYA VIEIRA THRONICKE \n","\n"," nm_urna_candidato sg_partido \\\n","0 JAIR BOLSONARO PL \n","1 LULA PT \n","2 SIMONE TEBET MDB \n","3 CIRO GOMES PDT \n","4 SORAYA THRONICKE UNIÃO \n","\n"," ds_composicao_coligacao nr_turno \\\n","0 PP / REPUBLICANOS / PL 1 \n","1 (PT/PC do B/PV) / SOLIDARIEDADE / (PSOL/REDE) ... 1 \n","2 MDB / (PSDB/CIDADANIA) / PODE 1 \n","3 PDT 1 \n","4 UNIÃO 1 \n","\n"," ds_sit_totalizacao dt_ult_totalizacao sg_ue sq_candidato \\\n","0 Segundo turno 2022-10-04 12:06:36 BR 280001618036 \n","1 Segundo turno 2022-10-04 12:06:36 BR 280001607829 \n","2 Não Eleito 2022-10-04 12:06:36 BR 280001607833 \n","3 Não Eleito 2022-10-04 12:06:36 BR 280001612393 \n","4 Não Eleito 2022-10-04 12:06:36 BR 280001644128 \n","\n"," nm_tipo_destinacao_votos sq_eleicao_divulga pc_votos_validos \\\n","0 Válido 2040602022 0,625 \n","1 Válido 2040602022 0,2926 \n","2 Válido 2040602022 0,0456 \n","3 Válido 2040602022 0,0279 \n","4 Válido 2040602022 0,0055 \n","\n"," qt_votos_nom_validos qt_votos_concorrentes \n","0 275582 440917 \n","1 129022 440917 \n","2 20122 440917 \n","3 12314 440917 \n","4 2444 440917 "],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
sg_ufcd_cargods_cargonr_candidatonm_candidatonm_urna_candidatosg_partidods_composicao_coligacaonr_turnods_sit_totalizacaodt_ult_totalizacaosg_uesq_candidatonm_tipo_destinacao_votossq_eleicao_divulgapc_votos_validosqt_votos_nom_validosqt_votos_concorrentes
0AC1Presidente22JAIR MESSIAS BOLSONAROJAIR BOLSONAROPLPP / REPUBLICANOS / PL1Segundo turno2022-10-04 12:06:36BR280001618036Válido20406020220,625275582440917
1AC1Presidente13LUIZ INÁCIO LULA DA SILVALULAPT(PT/PC do B/PV) / SOLIDARIEDADE / (PSOL/REDE) ...1Segundo turno2022-10-04 12:06:36BR280001607829Válido20406020220,2926129022440917
2AC1Presidente15SIMONE NASSAR TEBETSIMONE TEBETMDBMDB / (PSDB/CIDADANIA) / PODE1Não Eleito2022-10-04 12:06:36BR280001607833Válido20406020220,045620122440917
3AC1Presidente12CIRO FERREIRA GOMESCIRO GOMESPDTPDT1Não Eleito2022-10-04 12:06:36BR280001612393Válido20406020220,027912314440917
4AC1Presidente44SORAYA VIEIRA THRONICKESORAYA THRONICKEUNIÃOUNIÃO1Não Eleito2022-10-04 12:06:36BR280001644128Válido20406020220,00552444440917
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":229}]},{"cell_type":"markdown","source":["a) Filtre o que é relacionado só com o cargo de presidente e no primeiro turno"],"metadata":{"id":"L0xCikQsZpte"}},{"cell_type":"code","source":["df = df[(df['ds_cargo'] == 'Presidente') & (df['nr_turno'] == 1)]\n","\n","df\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":791},"id":"uU40O8ZAZvy8","executionInfo":{"status":"ok","timestamp":1693063998411,"user_tz":180,"elapsed":212,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"173e3d9e-4841-4a10-95b5-de71a91c696c"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" sg_uf cd_cargo ds_cargo nr_candidato \\\n","0 AC 1 Presidente 22 \n","1 AC 1 Presidente 13 \n","2 AC 1 Presidente 15 \n","3 AC 1 Presidente 12 \n","4 AC 1 Presidente 44 \n","... ... ... ... ... \n","26537 ZZ 1 Presidente 21 \n","26538 ZZ 1 Presidente 16 \n","26539 ZZ 1 Presidente 14 \n","26540 ZZ 1 Presidente 80 \n","26541 ZZ 1 Presidente 27 \n","\n"," nm_candidato nm_urna_candidato sg_partido \\\n","0 JAIR MESSIAS BOLSONARO JAIR BOLSONARO PL \n","1 LUIZ INÁCIO LULA DA SILVA LULA PT \n","2 SIMONE NASSAR TEBET SIMONE TEBET MDB \n","3 CIRO FERREIRA GOMES CIRO GOMES PDT \n","4 SORAYA VIEIRA THRONICKE SORAYA THRONICKE UNIÃO \n","... ... ... ... \n","26537 SOFIA PADUA MANZANO SOFIA MANZANO PCB \n","26538 VERA LUCIA PEREIRA DA SILVA SALGADO VERA PSTU \n","26539 KELMON LUIS DA SILVA SOUZA PADRE KELMON PTB \n","26540 LEONARDO PÉRICLES VIEIRA ROQUE LÉO PÉRICLES UP \n","26541 JOSE MARIA EYMAEL CONSTITUINTE EYMAEL DC \n","\n"," ds_composicao_coligacao nr_turno \\\n","0 PP / REPUBLICANOS / PL 1 \n","1 (PT/PC do B/PV) / SOLIDARIEDADE / (PSOL/REDE) ... 1 \n","2 MDB / (PSDB/CIDADANIA) / PODE 1 \n","3 PDT 1 \n","4 UNIÃO 1 \n","... ... ... \n","26537 PCB 1 \n","26538 PSTU 1 \n","26539 PTB 1 \n","26540 UP 1 \n","26541 DC 1 \n","\n"," ds_sit_totalizacao dt_ult_totalizacao sg_ue sq_candidato \\\n","0 Segundo turno 2022-10-04 12:06:36 BR 280001618036 \n","1 Segundo turno 2022-10-04 12:06:36 BR 280001607829 \n","2 Não Eleito 2022-10-04 12:06:36 BR 280001607833 \n","3 Não Eleito 2022-10-04 12:06:36 BR 280001612393 \n","4 Não Eleito 2022-10-04 12:06:36 BR 280001644128 \n","... ... ... ... ... \n","26537 Não Eleito 2022-10-04 12:06:36 BR 280001600167 \n","26538 Não Eleito 2022-10-04 12:06:36 BR 280001607831 \n","26539 Não Eleito 2022-10-04 12:06:36 BR 280001734029 \n","26540 Não Eleito 2022-10-04 12:06:36 BR 280001602702 \n","26541 Não Eleito 2022-10-04 12:06:36 BR 280001677435 \n","\n"," nm_tipo_destinacao_votos sq_eleicao_divulga pc_votos_validos \\\n","0 Válido 2040602022 0,625 \n","1 Válido 2040602022 0,2926 \n","2 Válido 2040602022 0,0456 \n","3 Válido 2040602022 0,0279 \n","4 Válido 2040602022 0,0055 \n","... ... ... ... \n","26537 Válido 2040602022 0,0021 \n","26538 Válido 2040602022 0,0016 \n","26539 Válido 2040602022 0,0012 \n","26540 Válido 2040602022 0,0011 \n","26541 Válido 2040602022 0,0009 \n","\n"," qt_votos_nom_validos qt_votos_concorrentes \n","0 275582 440917 \n","1 129022 440917 \n","2 20122 440917 \n","3 12314 440917 \n","4 2444 440917 \n","... ... ... \n","26537 618 294525 \n","26538 464 294525 \n","26539 344 294525 \n","26540 319 294525 \n","26541 258 294525 \n","\n","[308 rows x 18 columns]"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
sg_ufcd_cargods_cargonr_candidatonm_candidatonm_urna_candidatosg_partidods_composicao_coligacaonr_turnods_sit_totalizacaodt_ult_totalizacaosg_uesq_candidatonm_tipo_destinacao_votossq_eleicao_divulgapc_votos_validosqt_votos_nom_validosqt_votos_concorrentes
0AC1Presidente22JAIR MESSIAS BOLSONAROJAIR BOLSONAROPLPP / REPUBLICANOS / PL1Segundo turno2022-10-04 12:06:36BR280001618036Válido20406020220,625275582440917
1AC1Presidente13LUIZ INÁCIO LULA DA SILVALULAPT(PT/PC do B/PV) / SOLIDARIEDADE / (PSOL/REDE) ...1Segundo turno2022-10-04 12:06:36BR280001607829Válido20406020220,2926129022440917
2AC1Presidente15SIMONE NASSAR TEBETSIMONE TEBETMDBMDB / (PSDB/CIDADANIA) / PODE1Não Eleito2022-10-04 12:06:36BR280001607833Válido20406020220,045620122440917
3AC1Presidente12CIRO FERREIRA GOMESCIRO GOMESPDTPDT1Não Eleito2022-10-04 12:06:36BR280001612393Válido20406020220,027912314440917
4AC1Presidente44SORAYA VIEIRA THRONICKESORAYA THRONICKEUNIÃOUNIÃO1Não Eleito2022-10-04 12:06:36BR280001644128Válido20406020220,00552444440917
.........................................................
26537ZZ1Presidente21SOFIA PADUA MANZANOSOFIA MANZANOPCBPCB1Não Eleito2022-10-04 12:06:36BR280001600167Válido20406020220,0021618294525
26538ZZ1Presidente16VERA LUCIA PEREIRA DA SILVA SALGADOVERAPSTUPSTU1Não Eleito2022-10-04 12:06:36BR280001607831Válido20406020220,0016464294525
26539ZZ1Presidente14KELMON LUIS DA SILVA SOUZAPADRE KELMONPTBPTB1Não Eleito2022-10-04 12:06:36BR280001734029Válido20406020220,0012344294525
26540ZZ1Presidente80LEONARDO PÉRICLES VIEIRA ROQUELÉO PÉRICLESUPUP1Não Eleito2022-10-04 12:06:36BR280001602702Válido20406020220,0011319294525
26541ZZ1Presidente27JOSE MARIA EYMAELCONSTITUINTE EYMAELDCDC1Não Eleito2022-10-04 12:06:36BR280001677435Válido20406020220,0009258294525
\n","

308 rows × 18 columns

\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":230}]},{"cell_type":"markdown","source":["b) Crie um novo dataframe só com as colunas sg_uf, nm_urna_candidato, pc_votos_validos e qt_votos_nom_validos. Use 'reset_index()' para reconfigurar o índice."],"metadata":{"id":"eOXAKdXkbg46"}},{"cell_type":"code","source":["df2 = df[['sg_uf', 'nm_urna_candidato', 'pc_votos_validos', 'qt_votos_nom_validos']].reset_index()\n","\n","df2"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":442},"id":"mWuYRi6kbt9H","executionInfo":{"status":"error","timestamp":1693251742631,"user_tz":180,"elapsed":222,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}},"outputId":"0cc05631-6fa4-4f90-9b01-0bb333be5301"},"execution_count":14,"outputs":[{"output_type":"error","ename":"KeyError","evalue":"ignored","traceback":["\u001b[0;31m---------------------------------------------------------------------------\u001b[0m","\u001b[0;31mKeyError\u001b[0m Traceback (most recent call last)","\u001b[0;32m\u001b[0m in \u001b[0;36m\u001b[0;34m()\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0mdf2\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mdf\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m'sg_uf'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m'nm_urna_candidato'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m'pc_votos_validos'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m'qt_votos_nom_validos'\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mreset_index\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 2\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 3\u001b[0m \u001b[0mdf2\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/core/frame.py\u001b[0m in \u001b[0;36m__getitem__\u001b[0;34m(self, key)\u001b[0m\n\u001b[1;32m 3811\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0mis_iterator\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkey\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 3812\u001b[0m \u001b[0mkey\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mlist\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkey\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 3813\u001b[0;31m \u001b[0mindexer\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mcolumns\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_get_indexer_strict\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkey\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m\"columns\"\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m1\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 3814\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 3815\u001b[0m \u001b[0;31m# take() does not accept boolean indexers\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py\u001b[0m in \u001b[0;36m_get_indexer_strict\u001b[0;34m(self, key, axis_name)\u001b[0m\n\u001b[1;32m 6068\u001b[0m \u001b[0mkeyarr\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mindexer\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mnew_indexer\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_reindex_non_unique\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkeyarr\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 6069\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 6070\u001b[0;31m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_raise_if_missing\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkeyarr\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mindexer\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0maxis_name\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 6071\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 6072\u001b[0m \u001b[0mkeyarr\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mtake\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mindexer\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;32m/usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py\u001b[0m in \u001b[0;36m_raise_if_missing\u001b[0;34m(self, key, indexer, axis_name)\u001b[0m\n\u001b[1;32m 6128\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0muse_interval_msg\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 6129\u001b[0m \u001b[0mkey\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mlist\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkey\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 6130\u001b[0;31m \u001b[0;32mraise\u001b[0m \u001b[0mKeyError\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34mf\"None of [{key}] are in the [{axis_name}]\"\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 6131\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 6132\u001b[0m \u001b[0mnot_found\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mlist\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mensure_index\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mkey\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0mmissing_mask\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mnonzero\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m0\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0munique\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;31mKeyError\u001b[0m: \"None of [Index(['sg_uf', 'nm_urna_candidato', 'pc_votos_validos',\\n 'qt_votos_nom_validos'],\\n dtype='object')] are in the [columns]\""]}]},{"cell_type":"markdown","source":["c) Mostre o maior valor de qt_votos_nom_validos e a linha em que ocorre"],"metadata":{"id":"fKhfHl67dGlI"}},{"cell_type":"code","source":["maior = df2.qt_votos_nom_validos.max()\n","linha = df2.qt_votos_nom_validos.idxmax()\n","\n","print(f'O maior valor é de {maior} e ele ocorre na linha {linha}')\n","print(df2.iloc[275])\n","\n","\n","\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":245},"id":"Wo_rgQO6dKbs","executionInfo":{"status":"error","timestamp":1693251738141,"user_tz":180,"elapsed":272,"user":{"displayName":"Rebeca Carvalho","userId":"01975075342439777451"}},"outputId":"a99a4a72-cb47-4788-b191-80dffe321cba"},"execution_count":13,"outputs":[{"output_type":"error","ename":"NameError","evalue":"ignored","traceback":["\u001b[0;31m---------------------------------------------------------------------------\u001b[0m","\u001b[0;31mNameError\u001b[0m Traceback (most recent call last)","\u001b[0;32m\u001b[0m in \u001b[0;36m\u001b[0;34m()\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0mmaior\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mdf2\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mqt_votos_nom_validos\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mmax\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 2\u001b[0m \u001b[0mlinha\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mdf2\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mqt_votos_nom_validos\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0midxmax\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 3\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 4\u001b[0m \u001b[0mprint\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34mf'O maior valor é de {maior} e ele ocorre na linha {linha}'\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 5\u001b[0m \u001b[0mprint\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdf2\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0miloc\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m275\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n","\u001b[0;31mNameError\u001b[0m: name 'df2' is not defined"]}]},{"cell_type":"markdown","source":["3) Importe \"tweets_annotated.csv\" do seguinte [repositório](https://github.com/PedroSchmalz/covid19-tweets-brazilian-mayoral-candidates)."],"metadata":{"id":"5M-5KCzme8u9"}},{"cell_type":"code","source":["df = pd.read_csv('https://raw.githubusercontent.com/PedroSchmalz/covid19-tweets-brazilian-mayoral-candidates/main/tweets_annotated.csv')\n","\n","df"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":424},"id":"k4FmyG79fTJ0","executionInfo":{"status":"ok","timestamp":1693064203702,"user_tz":180,"elapsed":376,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"d12e1f6f-86d9-46bf-d4b3-9da546372fda"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" date_post tweet_id \\\n","0 2020-03-19 1240808239224090112 \n","1 2020-03-20 1241121140988410112 \n","2 2020-03-22 1241825454539120128 \n","3 2020-09-01 1300918558067770112 \n","4 2020-10-21 1319042054463290112 \n","... ... ... \n","7051 2021-06-28 1409592686840066048 \n","7052 2021-04-30 1388202351996150016 \n","7053 2021-03-19 1372931201871281920 \n","7054 2021-10-09 1446834442031575040 \n","7055 2021-08-02 1422321283350639104 \n","\n"," content post_vaccine \\\n","0 Tenho duas amigas doutorandas na USP. Não estã... 1 \n","1 Senado: Promulgado artigo que protege IBGE, Em... 0 \n","2 ATENÇÃO: programem-se para a vacinação contra ... 0 \n","3 Chega a ser inacreditável que o governo esteja... 1 \n","4 Como prefeito, vamos garantir através da Prefe... 1 \n","... ... ... \n","7051 Com os depoimentos dos irmãos Miranda foi dado... 1 \n","7052 Muitas pessoas estão questionando por que segu... 1 \n","7053 Gen Heleno de MÁSCARA, tomando VACINA. Cloroqu... 1 \n","7054 As UBS Hélio Macedo, Aygara Motta, Dalmo Feito... 1 \n","7055 Acompanhei a vacinação contra covid-19 das equ... 1 \n","\n"," positions_vac \n","0 1.0 \n","1 NaN \n","2 NaN \n","3 1.0 \n","4 1.0 \n","... ... \n","7051 2.0 \n","7052 2.0 \n","7053 1.0 \n","7054 1.0 \n","7055 1.0 \n","\n","[7056 rows x 5 columns]"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
date_posttweet_idcontentpost_vaccinepositions_vac
02020-03-191240808239224090112Tenho duas amigas doutorandas na USP. Não estã...11.0
12020-03-201241121140988410112Senado: Promulgado artigo que protege IBGE, Em...0NaN
22020-03-221241825454539120128ATENÇÃO: programem-se para a vacinação contra ...0NaN
32020-09-011300918558067770112Chega a ser inacreditável que o governo esteja...11.0
42020-10-211319042054463290112Como prefeito, vamos garantir através da Prefe...11.0
..................
70512021-06-281409592686840066048Com os depoimentos dos irmãos Miranda foi dado...12.0
70522021-04-301388202351996150016Muitas pessoas estão questionando por que segu...12.0
70532021-03-191372931201871281920Gen Heleno de MÁSCARA, tomando VACINA. Cloroqu...11.0
70542021-10-091446834442031575040As UBS Hélio Macedo, Aygara Motta, Dalmo Feito...11.0
70552021-08-021422321283350639104Acompanhei a vacinação contra covid-19 das equ...11.0
\n","

7056 rows × 5 columns

\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":237}]},{"cell_type":"markdown","source":["a) Exclua as linhas em que 'post_vaccine' é igual a 0 e salve isso em um novo dataframe"],"metadata":{"id":"MEQWqeUnfaIt"}},{"cell_type":"code","source":["df2 = df[df['post_vaccine'] == 1]\n","\n","df2"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":424},"id":"_2mOfrrSfdxq","executionInfo":{"status":"ok","timestamp":1693064324776,"user_tz":180,"elapsed":3,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"4508e2ad-af8d-4159-ad81-baf951e6138e"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" date_post tweet_id \\\n","0 2020-03-19 1240808239224090112 \n","3 2020-09-01 1300918558067770112 \n","4 2020-10-21 1319042054463290112 \n","5 2020-11-17 1328772384585860096 \n","6 2020-11-19 1329419704847490048 \n","... ... ... \n","7051 2021-06-28 1409592686840066048 \n","7052 2021-04-30 1388202351996150016 \n","7053 2021-03-19 1372931201871281920 \n","7054 2021-10-09 1446834442031575040 \n","7055 2021-08-02 1422321283350639104 \n","\n"," content post_vaccine \\\n","0 Tenho duas amigas doutorandas na USP. Não estã... 1 \n","3 Chega a ser inacreditável que o governo esteja... 1 \n","4 Como prefeito, vamos garantir através da Prefe... 1 \n","5 E reafirmando o compromisso de, como Prefeito,... 1 \n","6 Égua já pensaste?! Não sei se dá pra ser assim... 1 \n","... ... ... \n","7051 Com os depoimentos dos irmãos Miranda foi dado... 1 \n","7052 Muitas pessoas estão questionando por que segu... 1 \n","7053 Gen Heleno de MÁSCARA, tomando VACINA. Cloroqu... 1 \n","7054 As UBS Hélio Macedo, Aygara Motta, Dalmo Feito... 1 \n","7055 Acompanhei a vacinação contra covid-19 das equ... 1 \n","\n"," positions_vac \n","0 1.0 \n","3 1.0 \n","4 1.0 \n","5 1.0 \n","6 1.0 \n","... ... \n","7051 2.0 \n","7052 2.0 \n","7053 1.0 \n","7054 1.0 \n","7055 1.0 \n","\n","[6420 rows x 5 columns]"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
date_posttweet_idcontentpost_vaccinepositions_vac
02020-03-191240808239224090112Tenho duas amigas doutorandas na USP. Não estã...11.0
32020-09-011300918558067770112Chega a ser inacreditável que o governo esteja...11.0
42020-10-211319042054463290112Como prefeito, vamos garantir através da Prefe...11.0
52020-11-171328772384585860096E reafirmando o compromisso de, como Prefeito,...11.0
62020-11-191329419704847490048Égua já pensaste?! Não sei se dá pra ser assim...11.0
..................
70512021-06-281409592686840066048Com os depoimentos dos irmãos Miranda foi dado...12.0
70522021-04-301388202351996150016Muitas pessoas estão questionando por que segu...12.0
70532021-03-191372931201871281920Gen Heleno de MÁSCARA, tomando VACINA. Cloroqu...11.0
70542021-10-091446834442031575040As UBS Hélio Macedo, Aygara Motta, Dalmo Feito...11.0
70552021-08-021422321283350639104Acompanhei a vacinação contra covid-19 das equ...11.0
\n","

6420 rows × 5 columns

\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":238}]},{"cell_type":"markdown","source":["b) Use o dataframe do exercício anterior para mostrar as frequências das categorias de positions_vac"],"metadata":{"id":"IPeoDJ8wf3a0"}},{"cell_type":"code","source":["df2['positions_vac'].value_counts()\n","\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"iinV1bgcgHem","executionInfo":{"status":"ok","timestamp":1693064438501,"user_tz":180,"elapsed":2,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"770ad2e8-22d2-42e5-efbc-0fcddafb5d39"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["1.0 3999\n","2.0 2167\n","3.0 252\n","0.0 1\n","Name: positions_vac, dtype: int64"]},"metadata":{},"execution_count":239}]},{"cell_type":"markdown","source":["## Limpeza e Manipulação de dados"],"metadata":{"id":"JGOFaokz5qEE"}},{"cell_type":"markdown","source":["Na análise de dados e modelagem, 'uma grande quantidade de tempo é gasta na preparação de dados: carregar, limpar, transformar e reorganizar. Essas tarefas podem tomar até 80% do tempo de um analista' (Mckinney, 2022, p.203). A limpeza e a preparação de dados são etapas essenciais no processo de análise de dados. Elas envolvem a transformação e o aprimoramento dos dados brutos em um formato adequado e limpo para análise. Essas etapas são cruciais porque os dados nem sempre estão prontos para uso imediato e podem conter inconsistências, erros ou valores ausentes.\n","\n","A limpeza e a preparação de dados podem consumir uma parte significativa do tempo de um projeto de análise de dados, mas são fundamentais para garantir que os resultados sejam confiáveis e úteis. Uma vez que os dados estejam preparados adequadamente, você estará pronto para realizar análises exploratórias, modelagem de dados, visualizações e, finalmente, obter inferências a partir dos dados.\n","\n"],"metadata":{"id":"aItu2Kgr5ska"}},{"cell_type":"markdown","source":["### Lidando com dados ausentes\n","\n","Lidar com dados ausentes, também conhecidos como dados \"missing\" em Pandas, é uma parte importante da análise de dados, pois muitas vezes os conjuntos de dados reais contêm valores ausentes em algumas observações ou colunas. O Pandas oferece várias ferramentas e métodos para lidar com dados ausentes de forma eficaz. Aqui estão algumas estratégias comuns:\n","\n","\n","* 1 - Identificação de Dados Ausentes:\n","\n","isna() e isnull(): Essas funções permitem verificar se os valores são nulos. Por exemplo, df.isna() retornará um DataFrame booleano indicando quais valores são nulos.\n","\n","notna() e notnull(): Permitem verificar se os valores não são nulos.\n"],"metadata":{"id":"03gB_pBS6jev"}},{"cell_type":"code","source":["dados = pd.Series([1,2,3,np.nan,10])\n","\n","dados.isna()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"F3qEsYps6v9p","executionInfo":{"status":"ok","timestamp":1693071403916,"user_tz":180,"elapsed":235,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"417ea507-3010-45bf-b5af-a8789de8ffe5"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0 False\n","1 False\n","2 False\n","3 True\n","4 False\n","dtype: bool"]},"metadata":{},"execution_count":241}]},{"cell_type":"markdown","source":["* 2 - Remoção de Dados Ausentes\n","\n","dropna(): Esse método permite remover linhas ou colunas com valores ausentes. Por padrão, ele remove qualquer linha que contenha pelo menos um valor ausente."],"metadata":{"id":"AiEEmzf864hv"}},{"cell_type":"code","source":["dados.dropna()"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"xRelvbnK68nX","executionInfo":{"status":"ok","timestamp":1693071437812,"user_tz":180,"elapsed":2,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"17d412be-263e-4bb3-ce29-476a666c5b7c"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":["0 1.0\n","1 2.0\n","2 3.0\n","4 10.0\n","dtype: float64"]},"metadata":{},"execution_count":242}]},{"cell_type":"markdown","source":["dropna(subset=['coluna']): Você pode especificar uma coluna específica para verificar e remover apenas as linhas que contêm valores ausentes nessa coluna."],"metadata":{"id":"yDYLBNpJ7CMI"}},{"cell_type":"code","source":["dados = {\n"," \"Nome\": [\"Alice\", \"Bob\", \"Carol\", \"David\", \"Eva\"],\n"," \"Idade\": [25, 30, 22, 35, np.nan],\n"," \"Cidade\": [\"São Paulo\", \"Rio de Janeiro\", \"Belo Horizonte\", \"São Paulo\", \"Rio de Janeiro\"]\n","}\n","\n","dados = pd.DataFrame(dados)\n","\n","dados"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"Be9Zu7dn7DKO","executionInfo":{"status":"ok","timestamp":1693071596815,"user_tz":180,"elapsed":219,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f2f05118-ac19-4862-f860-63854a7225d7"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade\n","0 Alice 25.0 São Paulo\n","1 Bob 30.0 Rio de Janeiro\n","2 Carol 22.0 Belo Horizonte\n","3 David 35.0 São Paulo\n","4 Eva NaN Rio de Janeiro"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidade
0Alice25.0São Paulo
1Bob30.0Rio de Janeiro
2Carol22.0Belo Horizonte
3David35.0São Paulo
4EvaNaNRio de Janeiro
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":245}]},{"cell_type":"markdown","source":["Dropando as linhas com missing em \"idade\""],"metadata":{"id":"due7Y6-Q7qd4"}},{"cell_type":"code","source":["dados.dropna(subset=['Idade'])"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":175},"id":"h5BRuVIB7m_M","executionInfo":{"status":"ok","timestamp":1693071613670,"user_tz":180,"elapsed":221,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"fd972058-2960-4985-8a7d-79b009e6bae3"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade\n","0 Alice 25.0 São Paulo\n","1 Bob 30.0 Rio de Janeiro\n","2 Carol 22.0 Belo Horizonte\n","3 David 35.0 São Paulo"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidade
0Alice25.0São Paulo
1Bob30.0Rio de Janeiro
2Carol22.0Belo Horizonte
3David35.0São Paulo
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","
\n","
\n"]},"metadata":{},"execution_count":246}]},{"cell_type":"markdown","source":["* 3 - Preenchimento de Dados Ausentes:\n","\n","fillna(valor): Esse método permite preencher valores ausentes com um valor específico. Por exemplo, df.fillna(0) preencherá todos os valores ausentes com zero.\n","\n","fillna(metodo): Você também pode usar métodos como 'ffill' (preenchimento para frente) ou 'bfill' (preenchimento para trás) para preencher os valores ausentes com base nos valores próximos na mesma coluna."],"metadata":{"id":"TvPff-047tyW"}},{"cell_type":"code","source":["dados = {\n"," \"Nome\": [\"Alice\", \"Bob\", \"Carol\", \"David\", \"Eva\"],\n"," \"Idade\": [25, 30, 22, 35, np.nan],\n"," \"Cidade\": [\"São Paulo\", \"Rio de Janeiro\", \"Belo Horizonte\", \"São Paulo\", \"Rio de Janeiro\"]\n","}\n","\n","dados = pd.DataFrame(dados, columns=['Nome', 'Idade', 'Cidade', 'Salário'])\n","\n","dados"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"91_sGmIf78Y7","executionInfo":{"status":"ok","timestamp":1693071714370,"user_tz":180,"elapsed":4,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"1aec78c5-f043-40c6-ce7c-14c5809c5662"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade Salário\n","0 Alice 25.0 São Paulo NaN\n","1 Bob 30.0 Rio de Janeiro NaN\n","2 Carol 22.0 Belo Horizonte NaN\n","3 David 35.0 São Paulo NaN\n","4 Eva NaN Rio de Janeiro NaN"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidadeSalário
0Alice25.0São PauloNaN
1Bob30.0Rio de JaneiroNaN
2Carol22.0Belo HorizonteNaN
3David35.0São PauloNaN
4EvaNaNRio de JaneiroNaN
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":247}]},{"cell_type":"code","source":["dados.fillna(0)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"pWJSJdDY8C3k","executionInfo":{"status":"ok","timestamp":1693071725087,"user_tz":180,"elapsed":214,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"47eb8ec3-7fcf-41bd-c581-c970a370b5d7"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Idade Cidade Salário\n","0 Alice 25.0 São Paulo 0\n","1 Bob 30.0 Rio de Janeiro 0\n","2 Carol 22.0 Belo Horizonte 0\n","3 David 35.0 São Paulo 0\n","4 Eva 0.0 Rio de Janeiro 0"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeIdadeCidadeSalário
0Alice25.0São Paulo0
1Bob30.0Rio de Janeiro0
2Carol22.0Belo Horizonte0
3David35.0São Paulo0
4Eva0.0Rio de Janeiro0
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":248}]},{"cell_type":"markdown","source":["Para usar métodos"],"metadata":{"id":"u3CAleih8K1J"}},{"cell_type":"code","source":["df = pd.DataFrame(np.random.standard_normal((6,3)))\n","\n","df.iloc[2:, 1] = np.nan\n","df.iloc[4:, 2] = np.nan\n","\n","df\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":238},"id":"ybGa4a0J8F7E","executionInfo":{"status":"ok","timestamp":1693071838021,"user_tz":180,"elapsed":4,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"1c2363cb-0c8d-4097-fdb6-3f9222eb417d"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" 0 1 2\n","0 1.524942 1.720838 0.907236\n","1 -0.614782 0.420707 -1.283050\n","2 0.704547 NaN -1.186298\n","3 0.120769 NaN 1.313455\n","4 0.934829 NaN NaN\n","5 0.454356 NaN NaN"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
012
01.5249421.7208380.907236
1-0.6147820.420707-1.283050
20.704547NaN-1.186298
30.120769NaN1.313455
40.934829NaNNaN
50.454356NaNNaN
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":249}]},{"cell_type":"markdown","source":["O método ffill do Pandas é usado para preencher valores ausentes em um DataFrame ou em uma Série com os valores próximos válidos que estão imediatamente antes dos valores ausentes ao longo do eixo especificado. O termo \"ffill\" significa \"forward fill\", o que indica que ele preenche os valores ausentes avançando na direção dos índices maiores."],"metadata":{"id":"jOchjY9G8tRk"}},{"cell_type":"code","source":["df.fillna(method='ffill')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":238},"id":"dtiBGTvF8hUe","executionInfo":{"status":"ok","timestamp":1693071892431,"user_tz":180,"elapsed":226,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"939a5522-1172-400c-e8ea-2d4cf0373d3e"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" 0 1 2\n","0 1.524942 1.720838 0.907236\n","1 -0.614782 0.420707 -1.283050\n","2 0.704547 0.420707 -1.186298\n","3 0.120769 0.420707 1.313455\n","4 0.934829 0.420707 1.313455\n","5 0.454356 0.420707 1.313455"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
012
01.5249421.7208380.907236
1-0.6147820.420707-1.283050
20.7045470.420707-1.186298
30.1207690.4207071.313455
40.9348290.4207071.313455
50.4543560.4207071.313455
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":250}]},{"cell_type":"markdown","source":["Você também pode interpolar pela média"],"metadata":{"id":"V5HbDYkj8y-A"}},{"cell_type":"code","source":["df.fillna(df.mean())"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":238},"id":"XnGyONLY89Hk","executionInfo":{"status":"ok","timestamp":1693071962798,"user_tz":180,"elapsed":229,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"b4846250-622a-488d-909d-8671019102f1"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" 0 1 2\n","0 1.524942 1.720838 0.907236\n","1 -0.614782 0.420707 -1.283050\n","2 0.704547 1.070772 -1.186298\n","3 0.120769 1.070772 1.313455\n","4 0.934829 1.070772 -0.062164\n","5 0.454356 1.070772 -0.062164"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
012
01.5249421.7208380.907236
1-0.6147820.420707-1.283050
20.7045471.070772-1.186298
30.1207691.0707721.313455
40.9348291.070772-0.062164
50.4543561.070772-0.062164
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":251}]},{"cell_type":"markdown","source":["É importante destacar que o uso de métodos de preenchimento de valores ausentes, como ffill (preenchimento para frente) e interpolação pela média, tem suas limitações e pode introduzir vieses nos dados ou até mesmo distorcer as análises, dependendo do contexto."],"metadata":{"id":"Vx2rwfE29ILH"}},{"cell_type":"markdown","source":["### Transformação dos Dados\n","\n","A transformação de dados em Pandas envolve a modificação dos dados originais para prepará-los para análise. Vamos discutir algumas operações comuns de transformação de dados em Pandas:\n"],"metadata":{"id":"ag6nVrSZ77n0"}},{"cell_type":"markdown","source":["* 1 - Remoção de observações duplicadas:\n","\n","Para remover linhas duplicadas em um DataFrame, você pode usar o método drop_duplicates():"],"metadata":{"id":"UVtqXFDQ9jEM"}},{"cell_type":"code","source":["df.drop_duplicates() # Como não há obs duplicadas, nada acontece"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":238},"id":"oJo6rCUi9ov2","executionInfo":{"status":"ok","timestamp":1693072141464,"user_tz":180,"elapsed":318,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"895384c2-89bc-4713-9f69-040b5e990b33"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" 0 1 2\n","0 1.524942 1.720838 0.907236\n","1 -0.614782 0.420707 -1.283050\n","2 0.704547 NaN -1.186298\n","3 0.120769 NaN 1.313455\n","4 0.934829 NaN NaN\n","5 0.454356 NaN NaN"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
012
01.5249421.7208380.907236
1-0.6147820.420707-1.283050
20.704547NaN-1.186298
30.120769NaN1.313455
40.934829NaNNaN
50.454356NaNNaN
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":252}]},{"cell_type":"markdown","source":["* 2 - Substituição de Valores"],"metadata":{"id":"GXS5fRbr9uax"}},{"cell_type":"markdown","source":["Para substituir valores em um DataFrame, você pode usar o método replace():"],"metadata":{"id":"mcDNmoXe956r"}},{"cell_type":"code","source":["# df['Coluna'].replace(valor_antigo, valor_novo, inplace=True)"],"metadata":{"id":"DAS5lxMw96db"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["Isso substituirá todos os valores valor_antigo pela valor_novo na coluna especificada. Suponha que temos um DataFrame com informações sobre produtos e queremos substituir nomes de categorias específicas por nomes abreviados."],"metadata":{"id":"v8ZZyPBa97h-"}},{"cell_type":"code","source":["dados = {\n"," 'Produto': ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Impressora'],\n"," 'Categoria': ['Eletrônicos', 'Periféricos', 'Periféricos', 'Eletrônicos', 'Outros']\n","}\n","\n","df = pd.DataFrame(dados)\n","\n","# Substituir a categoria 'Eletrônicos' por 'Elec' e 'Periféricos' por 'Perif'\n","df['Categoria'].replace({'Eletrônicos': 'Elec', 'Periféricos': 'Perif'}, inplace=True)\n","\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"3acvJIO59_Wo","executionInfo":{"status":"ok","timestamp":1693072234047,"user_tz":180,"elapsed":204,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"450059dd-7679-4448-940c-0b093ac5707b"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Produto Categoria\n","0 Laptop Elec\n","1 Mouse Perif\n","2 Teclado Perif\n","3 Monitor Elec\n","4 Impressora Outros\n"]}]},{"cell_type":"markdown","source":["Neste exemplo, usamos o método replace() para substituir os valores da coluna 'Categoria'. O dicionário passado como argumento para replace() mapeia os valores antigos (chaves) para os novos valores (valores correspondentes). Os valores 'Eletrônicos' foram substituídos por 'Elec' e 'Periféricos' foram substituídos por 'Perif'. O uso de inplace=True faz a substituição diretamente no DataFrame original.\n","\n","Essa é uma maneira simples de realizar substituições em um DataFrame do Pandas, útil para modificar valores com base em critérios específicos durante a preparação dos dados para análise."],"metadata":{"id":"gcPTf4_U-EmT"}},{"cell_type":"markdown","source":["* 3 - Discretização e *Binning*:\n","\n","A discretização é o processo de dividir variáveis contínuas em intervalos ou categorias discretas. Você pode usar o método cut() para criar intervalos (bins) em seus dados. Suponha que temos um DataFrame com informações sobre idades de pessoas e queremos criar faixas etárias com base nas idades.\n","\n"],"metadata":{"id":"MLyhuq6k-IfH"}},{"cell_type":"code","source":["dados = {\n"," 'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eva'],\n"," 'Idade': [25, 30, 22, 35, 28]\n","}\n","\n","df = pd.DataFrame(dados)\n","\n","# Definindo os limites dos bins e as categorias correspondentes\n","limites_bins = [0, 18, 25, 35, float('inf')] # Faixas etárias: 0-18, 19-25, 26-35, 36+\n","categorias = ['0-18', '19-25', '26-35', '36+']\n","\n","# Usando cut() para criar uma nova coluna 'Faixa Etária' com base nas idades\n","df['Faixa Etária'] = pd.cut(df['Idade'], bins=limites_bins, labels=categorias)\n","\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"6uN_rD1o-TIN","executionInfo":{"status":"ok","timestamp":1693072314138,"user_tz":180,"elapsed":295,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"b9a3c87c-ec92-4cfb-97f3-3c9ae67409a8"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Idade Faixa Etária\n","0 Alice 25 19-25\n","1 Bob 30 26-35\n","2 Carol 22 19-25\n","3 David 35 26-35\n","4 Eva 28 26-35\n"]}]},{"cell_type":"markdown","source":["Neste exemplo, usamos o método cut() para criar uma nova coluna chamada 'Faixa Etária' com base nas idades das pessoas. Definimos os limites dos bins (faixas etárias) em limites_bins e as categorias correspondentes em categorias. O método cut() atribui automaticamente a cada idade a categoria apropriada com base nos limites especificados.\n","\n","Isso é útil quando você deseja transformar variáveis contínuas, como idades, em categorias discretas para análise. O Pandas faz o trabalho pesado de atribuir os valores corretos a cada categoria com base nos limites especificados."],"metadata":{"id":"6GdlItwc-aY5"}},{"cell_type":"markdown","source":["* 4 - Criando variáveis *dummy* (Ou binárias)"],"metadata":{"id":"_UoFTHAC-Pyf"}},{"cell_type":"markdown","source":["Elas são usada quando você deseja converter variáveis categóricas em um formato numérico que possa ser utilizado em algoritmos de machine learning ou em análises estatísticas que requerem entradas numéricas.\n","\n","As variáveis dummy são variáveis binárias (0 ou 1) que representam a presença ou ausência de uma categoria particular de uma variável categórica. Variáveis dummy são usadas quando você tem variáveis categóricas (como cores, países, categorias de produtos, etc.) que não podem ser diretamente usadas em algoritmos de machine learning ou análises estatísticas. Algoritmos e modelos matemáticos requerem entradas numéricas. Para calcular variáveis dummy, você cria uma nova coluna binária para cada categoria da variável categórica original. Cada coluna binária representa uma categoria específica e é preenchida com 1 (verdadeiro) se a categoria estiver presente e 0 (falso) caso contrário.\n","\n","A biblioteca Pandas do Python possui funções para criar variáveis dummy, como pd.get_dummies(). Exemplo:"],"metadata":{"id":"rv3AdAt--t8u"}},{"cell_type":"code","source":["# Dados de exemplo\n","dados = {'Cor': ['Vermelho', 'Verde', 'Azul', 'Vermelho', 'Azul', 'Verde', 'Verde']}\n","\n","# Criando um DataFrame a partir dos dados\n","df = pd.DataFrame(dados)\n","\n","# Exibindo o DataFrame original\n","print(\"DataFrame Original:\")\n","print(df)\n","\n","# Calculando as variáveis dummy\n","df_dummies = pd.get_dummies(df, columns=['Cor'], prefix=['Cor'])\n","\n","# Exibindo o DataFrame com as variáveis dummy\n","print(\"\\nDataFrame com Variáveis Dummy:\")\n","print(df_dummies)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"jyNse_dh-7UB","executionInfo":{"status":"ok","timestamp":1693072495935,"user_tz":180,"elapsed":222,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"43396c8a-48d9-4b67-9942-6da2b80ad26e"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["DataFrame Original:\n"," Cor\n","0 Vermelho\n","1 Verde\n","2 Azul\n","3 Vermelho\n","4 Azul\n","5 Verde\n","6 Verde\n","\n","DataFrame com Variáveis Dummy:\n"," Cor_Azul Cor_Verde Cor_Vermelho\n","0 0 0 1\n","1 0 1 0\n","2 1 0 0\n","3 0 0 1\n","4 1 0 0\n","5 0 1 0\n","6 0 1 0\n"]}]},{"cell_type":"markdown","source":["### Manipulação de Strings"],"metadata":{"id":"AGMDXBhH9-nK"}},{"cell_type":"markdown","source":["Nas aulas anteriores, já falamos um pouco sobre manipulação de strings em Python. Agora, aprofundaremos um pouco os métodos existentes para esses tipos de dados. Como forma de refrescar a memória, aqui estão os principais métodos padrões de manipulação de strings no Python"],"metadata":{"id":"fs1ucpme__01"}},{"cell_type":"markdown","source":["![image.png]()"],"metadata":{"id":"oQTCIsktAvF-"}},{"cell_type":"markdown","source":["#### Expressões Regulares"],"metadata":{"id":"6ZcExai0CAOD"}},{"cell_type":"markdown","source":["Expressões regulares, também conhecidas como \"regex\" ou \"regexp\", são uma poderosa ferramenta para manipulação de strings em Python (e em muitas outras linguagens de programação). As expressões regulares permitem realizar pesquisa, correspondência e manipulação de padrões de texto complexos de maneira eficiente. O módulo re do Python é amplamente utilizado para trabalhar com expressões regulares. Aqui estão alguns conceitos importantes relacionados a expressões regulares em Python:\n","\n","\n","* 1 - Padrões de Correspondência:\n","\n","As expressões regulares são usadas para especificar padrões de texto que você deseja encontrar em uma string. Por exemplo, você pode usar uma expressão regular para encontrar todas as ocorrências de endereços de e-mail em um texto.\n","\n","* 2 - Módulo re:\n","\n","O módulo re é a biblioteca padrão do Python para trabalhar com expressões regulares. Ele fornece funções e classes para compilar e usar expressões regulares.\n","\n","\n","* 3 - Funções Principais do Módulo re:\n","\n","re.match(): Verifica se o padrão ocorre no início da string.\n","\n","re.search(): Procura por qualquer local onde o padrão ocorre na string.\n","\n","re.findall(): Retorna todas as ocorrências do padrão na string.\n","\n","re.finditer(): Retorna um iterador de todas as correspondências do padrão na string.\n","\n","re.sub(): Substitui todas as ocorrências do padrão por outra string.\n","\n","* 4 - Padrões Básicos:\n","\n","Os padrões de expressões regulares podem incluir caracteres literais (como letras e números) e caracteres especiais que têm significados especiais (por exemplo, . para qualquer caractere, * para zero ou mais ocorrências, [ ] para especificar um conjunto de caracteres, etc.).\n","\n","\n","* 5 - Caracteres de Escape:\n","\n","Se você precisar corresponder a caracteres especiais como ., *, [, ], etc., como literais, é necessário escapá-los usando a barra invertida \\.\n","\n","\n","* 6 - Exemplos de Expressões Regulares:\n","\n","Alguns exemplos de padrões de expressões regulares comuns incluem:\n","\n"," \\d+: Corresponde a um ou mais dígitos.\n","\n"," [A-Za-z]+: Corresponde a uma ou mais letras maiúsculas ou minúsculas.\n","\n"," .*: Corresponde a qualquer sequência de caracteres.\n","\n"," \\b\\w+\\b: Corresponde a palavras completas em uma string.\n","\n"," [0-9]{2,4}: Corresponde a um número que tem de 2 a 4 dígitos.\n","\n","* 7 - Exemplo de Uso:\n","\n","Aqui está um exemplo simples de uso do módulo re para encontrar endereços de e-mail em uma string:"],"metadata":{"id":"Z19QorArB_lP"}},{"cell_type":"code","source":["import re\n","\n","texto = \"Meu email é joao@exemplo.com e o outro é maria@exemplo.org\"\n","padrao = r'\\S+@\\S+'\n","\n","emails = re.findall(padrao, texto)\n","print(emails)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"oje3ZEOjCcz8","executionInfo":{"status":"ok","timestamp":1693073405861,"user_tz":180,"elapsed":241,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"21ea760a-304b-471b-a033-f66cad585c44"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["['joao@exemplo.com', 'maria@exemplo.org']\n"]}]},{"cell_type":"markdown","source":["* 8 - O módulo re permite usar flags para modificar o comportamento das expressões regulares. Por exemplo, a flag re.IGNORECASE torna a correspondência de texto maiúsculo/minúsculo insensível.\n","\n","Expressões regulares podem ser incrivelmente úteis para análise de texto, validação de entradas, extração de informações e muito mais. No entanto, elas também podem ser complexas e difíceis de ler. Portanto, é aconselhável estudar e praticar expressões regulares para aproveitar ao máximo essa poderosa ferramenta.\n"],"metadata":{"id":"alM31zCqCjE3"}},{"cell_type":"markdown","source":["#### Funções de Strings em Pandas"],"metadata":{"id":"Tk7T_zo3DDDJ"}},{"cell_type":"markdown","source":["O Pandas oferece uma variedade de funções para manipulação de strings em DataFrames. Essas funções são extremamente úteis quando você precisa trabalhar com dados de texto em colunas de um DataFrame. Aqui estão algumas das funções de string mais comuns em Pandas, juntamente com exemplos:"],"metadata":{"id":"RpgBweQmDM7c"}},{"cell_type":"markdown","source":["* 1- str.lower() e str.upper():\n","\n","Converte todos os caracteres para minúsculas ou maiúsculas, respectivamente.\n","Exemplo:"],"metadata":{"id":"cQeXS0n7DOKj"}},{"cell_type":"code","source":["import pandas as pd\n","\n","data = {'Nome': ['Alice', 'Bob', 'Carol', 'David'],\n"," 'Cidade': ['New York', 'Los Angeles', 'San Francisco', 'Chicago']}\n","df = pd.DataFrame(data)\n","\n","df['Cidade'] = df['Cidade'].str.lower()\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"zMfAQwFxDPH-","executionInfo":{"status":"ok","timestamp":1693073606150,"user_tz":180,"elapsed":219,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"b2cd7a6b-7530-4197-d57f-f7f2ba57f9ab"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Cidade\n","0 Alice new york\n","1 Bob los angeles\n","2 Carol san francisco\n","3 David chicago\n"]}]},{"cell_type":"markdown","source":["* 2 - str.len():\n","\n"],"metadata":{"id":"6XqJ8CVzDS1e"}},{"cell_type":"code","source":["df['Tamanho do Nome'] = df['Nome'].str.len()\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"LfsjlYR1DYf5","executionInfo":{"status":"ok","timestamp":1693073641782,"user_tz":180,"elapsed":478,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"552ca5a0-fb25-4eab-d6e3-4b5c89066abe"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Cidade Tamanho do Nome\n","0 Alice new york 5\n","1 Bob los angeles 3\n","2 Carol san francisco 5\n","3 David chicago 5\n"]}]},{"cell_type":"markdown","source":["* 3 - str.contains():\n","\n","Verifica se uma string contém uma determinada substring e retorna uma série de booleanos."],"metadata":{"id":"jpWEOU-RDaX0"}},{"cell_type":"code","source":["df['Contém \"San\"'] = df['Cidade'].str.contains('san', case=False)\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"n0b1gQjVDfIc","executionInfo":{"status":"ok","timestamp":1693073668731,"user_tz":180,"elapsed":406,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"5112e730-db2e-4c2a-9d3b-7a1c2ba505e7"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Cidade Tamanho do Nome Contém \"San\"\n","0 Alice new york 5 False\n","1 Bob los angeles 3 False\n","2 Carol san francisco 5 True\n","3 David chicago 5 False\n"]}]},{"cell_type":"markdown","source":["* 4 - str.replace():\n","\n","Substitui uma substring por outra em cada string da coluna."],"metadata":{"id":"w1tIUATYDirx"}},{"cell_type":"code","source":["df['Cidade'] = df['Cidade'].str.replace(' ', '-') # Substituindo espaço vazio por '-'\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"kCjk3ZpBDli0","executionInfo":{"status":"ok","timestamp":1693073698205,"user_tz":180,"elapsed":270,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"f8af7ce4-6382-4045-ead4-6e93fa173eb5"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Cidade Tamanho do Nome Contém \"San\"\n","0 Alice new-york 5 False\n","1 Bob los-angeles 3 False\n","2 Carol san-francisco 5 True\n","3 David chicago 5 False\n"]}]},{"cell_type":"markdown","source":["* 5 - str.extract():\n","\n","Extrai informações usando expressões regulares."],"metadata":{"id":"bTCXOAYVDsCd"}},{"cell_type":"code","source":["df['Estado'] = df['Cidade'].str.extract(r'([A-Za-z]+)') # é um pouco obscuro ainda, mas futuramente retomaremos expressões regulares\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"TxSMzfe2EBrj","executionInfo":{"status":"ok","timestamp":1693073863269,"user_tz":180,"elapsed":221,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"d543f303-a4e8-40cb-9a02-af8a08970d23"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Cidade Tamanho do Nome Contém \"San\" Estado\n","0 Alice new-york 5 False new\n","1 Bob los-angeles 3 False los\n","2 Carol san-francisco 5 True san\n","3 David chicago 5 False chicago\n"]}]},{"cell_type":"markdown","source":["### Exercícios"],"metadata":{"id":"mJdwlxZQLF7k"}},{"cell_type":"markdown","source":["1 - Temos o seguinte banco de dados com valores missing. Preencha os valores faltantes com zeros."],"metadata":{"id":"65wEEgD4LNC3"}},{"cell_type":"code","source":["data = {'A': [1, 2, np.nan, 4, 5],\n"," 'B': [np.nan, 2, 3, np.nan, 5],\n"," 'C': [1, np.nan, 3, 4, np.nan]}\n","\n","df = pd.DataFrame(data)\n","\n","\n","# Preencher os valores ausentes com zeros\n","df_filled = df.fillna(0)\n","\n","# Exibir o DataFrame com os valores preenchidos\n","print(df_filled)\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"xGUBtDtSLQOm","executionInfo":{"status":"ok","timestamp":1693075737721,"user_tz":180,"elapsed":242,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"b3a05998-cdaa-413a-abd1-f146b9622df5"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" A B C\n","0 1.0 0.0 1.0\n","1 2.0 2.0 0.0\n","2 0.0 3.0 3.0\n","3 4.0 0.0 4.0\n","4 5.0 5.0 0.0\n"]}]},{"cell_type":"markdown","source":["2 - Novamente, temos um banco de dados com NAs. Conte os valores missing em cada coluna:"],"metadata":{"id":"EsXxk-WLLa8H"}},{"cell_type":"code","source":["data = {'A': [1, 2, np.nan, 4, 5],\n"," 'B': [np.nan, 2, 3, np.nan, 5],\n"," 'C': [1, np.nan, 3, 4, np.nan]}\n","\n","df = pd.DataFrame(data)\n","\n","\n","# Contar os valores ausentes em cada coluna\n","count_missing = df.isnull().sum()\n","\n","# Exibir o número de valores ausentes em cada coluna\n","print(count_missing)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"j3JdAuPZLou2","executionInfo":{"status":"ok","timestamp":1693075809754,"user_tz":180,"elapsed":207,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"ced37f40-9e37-4043-bc7e-e45db1204ce0"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["A 1\n","B 2\n","C 2\n","dtype: int64\n"]}]},{"cell_type":"markdown","source":["3 - Remova os dados duplicados do seguinte banco de dados"],"metadata":{"id":"XuLEJFuVL0ep"}},{"cell_type":"code","source":["data = {'Nome': ['Alice', 'Bob', 'Alice', 'David', 'Eve'],\n"," 'ID': [101, 102, 101, 103, 104]}\n","\n","df = pd.DataFrame(data)\n","\n","# Remova as entradas duplicadas com base no número de identificação\n","df_unique = df.drop_duplicates(subset='ID')\n","\n","# Exiba o novo DataFrame resultante\n","print(df_unique)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"n6aDFwq0L28s","executionInfo":{"status":"ok","timestamp":1693075863544,"user_tz":180,"elapsed":225,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"6a0ad43e-cb3f-4904-8336-04f80710a877"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome ID\n","0 Alice 101\n","1 Bob 102\n","3 David 103\n","4 Eve 104\n"]}]},{"cell_type":"markdown","source":["4 - Para o seguinte banco de dados, faça um mapeamento que substitua 'alto' por 3, 'médio' por 2 e 'baixo' por 1. em seguida, utilize esse mapeamento no banco com o método replace"],"metadata":{"id":"GLSOagZiMKnH"}},{"cell_type":"code","source":["\n","data = {'Cidade': ['A', 'B', 'C', 'D'],\n"," 'Poluição': ['Alto', 'Médio', 'Baixo', 'Alto']}\n","\n","df = pd.DataFrame(data)\n","\n","# Mapeie as representações de texto para valores numéricos\n","mapeamento = {'Alto': 3, 'Médio': 2, 'Baixo': 1}\n","df['Poluição'] = df['Poluição'].replace(mapeamento)\n","\n","# Exiba o DataFrame após a substituição\n","print(df)"],"metadata":{"id":"wPzGFEKlMSoV"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["5 - Para o seguinte banco de dados, crie bins de conceitos (i.e. 'A', 'B', etc.) com base na nota dos alunos"],"metadata":{"id":"DkuNY-6lM3wZ"}},{"cell_type":"code","source":["\n","data = {'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eve'],\n"," 'Nota': [85, 72, 45, 60, 32]}\n","\n","df = pd.DataFrame(data)\n","\n","# Defina os intervalos das notas\n","faixas_etarias = [0, 18, 40, 60, 84, float('inf')] # Intervalos\n","\n","# Crie uma nova coluna com as faixas etárias\n","df['Conceito'] = pd.cut(df['Nota'], bins=faixas_etarias, labels=['E', 'D', 'C', 'B', 'A'])\n","\n","\n","df\n","\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":206},"id":"P2EIIhmZM-iz","executionInfo":{"status":"ok","timestamp":1693076273160,"user_tz":180,"elapsed":569,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"4121c563-54e9-44d7-e0e4-b1d4aea279d3"},"execution_count":null,"outputs":[{"output_type":"execute_result","data":{"text/plain":[" Nome Nota Conceito\n","0 Alice 85 A\n","1 Bob 72 B\n","2 Carol 45 C\n","3 David 60 C\n","4 Eve 32 D"],"text/html":["\n","
\n","
\n","\n","\n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n"," \n","
NomeNotaConceito
0Alice85A
1Bob72B
2Carol45C
3David60C
4Eve32D
\n","
\n","
\n","\n","
\n"," \n","\n"," \n","\n"," \n","
\n","\n","\n","
\n"," \n","\n","\n","\n"," \n","
\n","
\n","
\n"]},"metadata":{},"execution_count":273}]},{"cell_type":"markdown","source":["6 - Use a função get_dummies() para criar variáveis dummy a partir da coluna de animais de estimação"],"metadata":{"id":"cLoVIbj_Np7D"}},{"cell_type":"code","source":["data = {'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eve'],\n"," 'Animal_de_Estimação': ['Cachorro', 'Gato', 'Peixe', 'Gato', 'Cachorro']}\n","\n","df = pd.DataFrame(data)\n","\n","# Crie variáveis dummy para o tipo de animal de estimação\n","df_dummies = pd.get_dummies(df['Animal_de_Estimação'])\n","\n","# Concatene as variáveis dummy com o DataFrame original\n","df = pd.concat([df, df_dummies], axis=1)\n","\n","# Exiba o DataFrame com as novas variáveis dummy\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"IBJhWh3UNvY8","executionInfo":{"status":"ok","timestamp":1693076366963,"user_tz":180,"elapsed":209,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"5996415b-b133-415d-db36-0fc932010d85"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome Animal_de_Estimação Cachorro Gato Peixe\n","0 Alice Cachorro 1 0 0\n","1 Bob Gato 0 1 0\n","2 Carol Peixe 0 0 1\n","3 David Gato 0 1 0\n","4 Eve Cachorro 1 0 0\n"]}]},{"cell_type":"markdown","source":["7 - Suponha que você tenha um DataFrame com uma coluna que contém nomes completos no formato \"Primeiro Nome Último Nome\". Sua tarefa é dividir essa coluna em duas colunas separadas, uma para o primeiro nome e outra para o último nome."],"metadata":{"id":"ydLkvQvzN-Fh"}},{"cell_type":"code","source":["import pandas as pd\n","\n","data = {'Nome_Completo': ['Alice Johnson', 'Bob Smith', 'Carol Brown', 'David White', 'Eve Anderson']}\n","\n","df = pd.DataFrame(data)\n","\n","# Divida a coluna \"Nome_Completo\" em \"Primeiro_Nome\" e \"Último_Nome\"\n","df[['Primeiro_Nome', 'Último_Nome']] = df['Nome_Completo'].str.split(' ', 1, expand=True)\n","\n","# Exiba o DataFrame com as novas colunas\n","print(df)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"2Q4Ah6ZEOBGY","executionInfo":{"status":"ok","timestamp":1693076433252,"user_tz":180,"elapsed":226,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"1500e901-fc0a-4cad-a1de-fd651cdebae9"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome_Completo Primeiro_Nome Último_Nome\n","0 Alice Johnson Alice Johnson\n","1 Bob Smith Bob Smith\n","2 Carol Brown Carol Brown\n","3 David White David White\n","4 Eve Anderson Eve Anderson\n"]},{"output_type":"stream","name":"stderr","text":[":8: FutureWarning: In a future version of pandas all arguments of StringMethods.split except for the argument 'pat' will be keyword-only.\n"," df[['Primeiro_Nome', 'Último_Nome']] = df['Nome_Completo'].str.split(' ', 1, expand=True)\n"]}]},{"cell_type":"markdown","source":["8 - Suponha que você tenha um DataFrame com uma coluna que contém nomes completos, mas alguns nomes têm espaços em branco extras no início ou no final. Sua tarefa é remover esses espaços em branco extras."],"metadata":{"id":"4VCdITq7OGst"}},{"cell_type":"code","source":["data = {'Nome_Completo': [' Alice Johnson', 'Bob Smith ', ' Carol Brown ', ' David White ', 'Eve Anderson']}\n","\n","df = pd.DataFrame(data)\n","\n","# Remova espaços em branco extras no início e no final dos nomes\n","df['Nome_Completo'] = df['Nome_Completo'].str.strip()\n","\n","# Exiba o DataFrame com os nomes limpos\n","print(df)"],"metadata":{"id":"5cprzW1KOHiX","executionInfo":{"status":"ok","timestamp":1693076463871,"user_tz":180,"elapsed":240,"user":{"displayName":"Pedro Henrique de Santana Schmalz","userId":"15443225301388878262"}},"outputId":"12628f42-61ef-4474-ced7-13866986b652","colab":{"base_uri":"https://localhost:8080/"}},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":[" Nome_Completo\n","0 Alice Johnson\n","1 Bob Smith\n","2 Carol Brown\n","3 David White\n","4 Eve Anderson\n"]}]}]}