/* Do file preparado para as monitorias de laboratório de Econometria II - pós graduação. As primeiras monitorias abordarão os seguintes temas: I) Princípios básicos do Stata; II) Dados (tipos, formatação, operações, etc); III) Bases de dados (abertura, formatação, etc); IV) Análise estatística; V) Análise econométrica. Cronograma: # 12/08 - temas I, II # 19/08 - temas III # 26/08 - temas IV # 02/09 - temas V Quaisquer dúvidas, enviem um e-mail para leandro.anazawa@usp.br */ ******************************************************** ********************** AULA 2 ********************** ******************************************************** * BASES DE DADOS { /* Estudamos na aula passada que o Stata utiliza bases de dados com a extensão .dta. Entretanto, na maioria das vezes as bases de dados que temos não está nesse formato. É bem comum que as bases de dados estejam no formato .txt, .csv ou .xls. Assim, vamos aprender nesta aula sobre como abrir bases de dados com outras extensões. */ } * { /* A seguir seguem os links de algumas das bases de dados públicas. Censo Demográfico 2010: https://ww2.ibge.gov.br/home/estatistica/populacao/censo2010/resultados_gerais_amostra/resultados_gerais_amostra_tab_uf_microdados.shtm Censo Demográfico 2000: https://ww2.ibge.gov.br/home/estatistica/populacao/censo2000/default_microdados.shtm Malhas cartográficas dos municípios brasileiros (Shapefile e raster): https://mapas.ibge.gov.br/bases-e-referenciais/bases-cartograficas/malhas-digitais.html PNAD: https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm ou ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_por_Amostra_de_Domicilios_anual/microdados/ PNAD contínua: https://www.ibge.gov.br/estatisticas/sociais/trabalho/17270-pnad-continua.html?=&t=microdados Censo agropecuário (apenas tabelas): https://www.ibge.gov.br/estatisticas/economicas/agricultura-e-pecuaria/21814-2017-censo-agropecuario.html?=&t=downloads Pesquisa de Orçamento Familiar: https://www.ibge.gov.br/estatisticas/sociais/saude/9050-pesquisa-de-orcamentos-familiares.html?=&t=microdados INPE (diversas bases): http://www.inpe.br/dados_abertos/ RAIS: http://pdet.mte.gov.br/microdados-rais-e-caged Dados educacionais: http://inep.gov.br/microdados DATASUS: http://www2.datasus.gov.br/DATASUS/index.php?area=0901 IPEADATA: http://www.ipeadata.gov.br/Default.aspx Dados históricos: https://seculoxx.ibge.gov.br/ Produtividade agrícola (mundial): http://www.fao.org/nr/gaez/en/ Banco Mundial: https://data.worldbank.org/ FMI: https://www.imf.org/en/Data ONU: http://data.un.org/ NASA: https://data.nasa.gov/ Existem diversas outras bases de dados abertas e bases que podem ser obtidas através de pedidos para IBGE, autores de artigo, etc. */ } * { /* Agora, vamos aprender como abrir uma base de dados que esteja em .txt Vamos abrir a base de pessoas da PNAD 2015. Baixe os arquivos do link: ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_por_Amostra_de_Domicilios_anual/microdados/2015/ Para isso, vamos utilizar o comando "infix". Note que o comando "#delimit;" indica para o Stata que a partir do caracter ";" será considerado tudo como uma única linha de comando até o próximo ";". A parte do "infix" que indica a base de dados .txt é o "using ...". Entre o "infix" e o "using" incluímos todas as variáveis que queremos utilizar da base de dados original. Primeiro indicamos o nome da variável e depois indicamos o intervalo em que ela se encontra no .txt. O intervalo "1-2" indica que os valores da variável estão entre as posições 1 e 2 do arquivo .txt. Os intervalos das variáveis podem ser encontrados nos dicionários que acompanham as bases de dados. */ } * cd "C:\Users\leand\Desktop" clear all #delimit; infix ano 1-4 //Ano da PNAD uf 5-6 //UF de residência sexo 18-18 //Sexo do entrevistado idade 27-29 //Idade do entrevistado cond_morador 31-31 //Condição do entrevistado na família cor 33-33 //Cor de pele do entrevistado trabalhou 152-152 //Entrevistado trabalhou na semana de referência horas_trab 360-361 //Horas trabalhadas por semana no trabalho principal da semana de referência rendimento 725-736 //Rendimento mensal do trabalho principal urbano 790-790 //Área de residência peso_amostral 791-795 //Peso amostral do entrevistado escolaridade 802-802 //Grupo de anos de escolaridade using "C:\Users\leand\Desktop\PES2015.txt"; #delimit cr sa "PNAD2015.dta", replace { /* Outra possibilidade é que a base de dados venha no formato .xls ou .csv Baixem a base de dados disponibilizada no Moodle (Aula 02 - base). Essa base é da Prova Brasil de 2017 (dados educacionais) e está disponível em formato .csv. Podemos utilizar o comando "import delimited". Outra forma mais fácil é ir na opção "File -> Import -> Text data (delimited, *.csv,...)" e configurar as opções na mão. Se o arquivo tiver a extensão .xls, utilize a opção "File -> Import -> Excel spreadsheet (*.xls, *.xlsx)". */ } * import delimited "C:\Users\leand\Desktop\TS_ALUNO_5EF.csv", delimiter(comma) clear sa "PB2017.dta", replace { /* Agora, vamos utilizar comando para mexer na estrutura das bases de dados. O comando "collapse" agrega a base de dados segundo alguma regra especificada. O comando "merge" agrega duas bases de dados de acordo com alguma(s) variável(is) de identificação em comum entre elas. O comando "append" agrega uma base de dados no final de outra base. Ou seja, esse comando adiciona mais observações na base de dados. */ } * * Primeiro, vamos usar o comando "collapse" nas duas bases que abrimos. * Vamos agregar por UF. { use "PNAD2015.dta", clear collapse (mean)rendimento, by(uf) sa "PNAD_collapse.dta", replace use "PB2017.dta", clear collapse (mean)proficiencia_mt_saeb, by(id_uf) ren id_uf uf sa "PB_collapse.dta", replace } * * Agora, podemos usar o comando "merge" para agregar as duas bases após o * collapse. { use "PNAD_collapse.dta", clear merge 1:1 uf using "PB_collapse.dta" * Observe que utilizamos a configuração "1:1". Isso indica que o "merge" das * bases será feito entre valores únicos de UF das bases. * Outras opções são: * "1:m" indica que a variável de identificação na base master só tem valores * únicos e que a base "using" pode apresentar identificações duplicadas. * "m:m" indica que a variável de identificação na base master pode ter valores * duplicados e que a base "using" pode apresentar identificações duplicadas. } * * Também podemos utilizar o comando "append" { use "PNAD_collapse.dta", clear append using "PB_collapse.dta", force } *