/* Do file preparado para as monitorias de laboratório de Econometria II - pós
graduação.


As primeiras monitorias abordarão os seguintes temas:

	I) Princípios básicos do Stata;
	
	II) Dados (tipos, formatação, operações, etc);
	
	III) Bases de dados (abertura, formatação, etc);
	
	IV) Análise estatística;
	
	V) Análise econométrica.
	


Cronograma:

	# 12/08 - temas I, II
	
	# 19/08 - temas III
	
	# 26/08 - temas IV
	
	# 02/09 - temas V


	
Quaisquer dúvidas, enviem um e-mail para leandro.anazawa@usp.br
*/





********************************************************
**********************   AULA 2   **********************
********************************************************

* BASES DE DADOS

{
/*
		Estudamos na aula passada que o Stata utiliza bases de dados com a 
	extensão .dta. Entretanto, na maioria das vezes as bases de dados que
	temos não está nesse formato.
	
		É bem comum que as bases de dados estejam no formato .txt, .csv ou .xls.
		
		Assim, vamos aprender nesta aula sobre como abrir bases de dados com
	outras extensões.
*/
}
*

{
/*		
		A seguir seguem os links de algumas das bases de dados públicas.
		
		
		Censo Demográfico 2010: https://ww2.ibge.gov.br/home/estatistica/populacao/censo2010/resultados_gerais_amostra/resultados_gerais_amostra_tab_uf_microdados.shtm
		
		Censo Demográfico 2000: https://ww2.ibge.gov.br/home/estatistica/populacao/censo2000/default_microdados.shtm
		
		Malhas cartográficas dos municípios brasileiros (Shapefile e raster): https://mapas.ibge.gov.br/bases-e-referenciais/bases-cartograficas/malhas-digitais.html
		
		PNAD: https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm
			ou ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_por_Amostra_de_Domicilios_anual/microdados/
		
		PNAD contínua: https://www.ibge.gov.br/estatisticas/sociais/trabalho/17270-pnad-continua.html?=&t=microdados
		
		Censo agropecuário (apenas tabelas): https://www.ibge.gov.br/estatisticas/economicas/agricultura-e-pecuaria/21814-2017-censo-agropecuario.html?=&t=downloads

		Pesquisa de Orçamento Familiar: https://www.ibge.gov.br/estatisticas/sociais/saude/9050-pesquisa-de-orcamentos-familiares.html?=&t=microdados
		
		INPE (diversas bases): http://www.inpe.br/dados_abertos/
		
		RAIS: http://pdet.mte.gov.br/microdados-rais-e-caged
		
		Dados educacionais: http://inep.gov.br/microdados
		
		DATASUS: http://www2.datasus.gov.br/DATASUS/index.php?area=0901

		IPEADATA: http://www.ipeadata.gov.br/Default.aspx
		
		Dados históricos: https://seculoxx.ibge.gov.br/
		
		Produtividade agrícola (mundial): http://www.fao.org/nr/gaez/en/
		
		Banco Mundial: https://data.worldbank.org/
		
		FMI: https://www.imf.org/en/Data
		
		ONU: http://data.un.org/
		
		NASA: https://data.nasa.gov/

		
		Existem diversas outras bases de dados abertas e bases que podem ser
	obtidas através de pedidos para IBGE, autores de artigo, etc.
*/
}
*

{
/*		Agora, vamos aprender como abrir uma base de dados que esteja em .txt

		Vamos abrir a base de pessoas da PNAD 2015. Baixe os arquivos do link:
	ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_por_Amostra_de_Domicilios_anual/microdados/2015/

		Para isso, vamos utilizar o comando "infix".
		
		Note que o comando "#delimit;" indica para o Stata que a partir do
	caracter ";" será considerado tudo como uma única linha de comando até o
	próximo ";".
	
		A parte do "infix" que indica a base de dados .txt é o "using ...".
		
		Entre o "infix" e o "using" incluímos todas as variáveis que queremos
	utilizar da base de dados original. Primeiro indicamos o nome da variável e
	depois indicamos o intervalo em que ela se encontra no .txt.
	
		O intervalo "1-2" indica que os valores da variável estão entre as 
	posições 1 e 2 do arquivo .txt. Os intervalos das variáveis podem ser 
	encontrados nos dicionários que acompanham as bases de dados.

*/
}
*

cd "C:\Users\leand\Desktop"

clear all

#delimit;

infix ano 1-4				//Ano da PNAD
uf 5-6  					//UF de residência
sexo 18-18					//Sexo do entrevistado
idade 27-29					//Idade do entrevistado
cond_morador 31-31			//Condição do entrevistado na família
cor 33-33					//Cor de pele do entrevistado
trabalhou 152-152			//Entrevistado trabalhou na semana de referência
horas_trab 360-361	 		//Horas trabalhadas por semana no trabalho principal da semana de referência
rendimento 725-736			//Rendimento mensal do trabalho principal
urbano 790-790				//Área de residência
peso_amostral 791-795		//Peso amostral do entrevistado
escolaridade 802-802		//Grupo de anos de escolaridade

using "C:\Users\leand\Desktop\PES2015.txt";

#delimit cr

sa "PNAD2015.dta", replace


{
/*		Outra possibilidade é que a base de dados venha no formato .xls ou .csv
		
		Baixem a base de dados disponibilizada no Moodle (Aula 02 - base). Essa
	base é da Prova Brasil de 2017 (dados educacionais) e está disponível em
	formato .csv.
	
		Podemos utilizar o comando "import delimited".
	
		Outra forma mais fácil é ir na opção "File -> Import -> Text data (delimited, *.csv,...)"
	e configurar as opções na mão.
	
		Se o arquivo tiver a extensão .xls, utilize a opção "File -> Import ->
	Excel spreadsheet (*.xls, *.xlsx)".
*/
}
*

import delimited "C:\Users\leand\Desktop\TS_ALUNO_5EF.csv", delimiter(comma) clear

sa "PB2017.dta", replace


{
/*		Agora, vamos utilizar comando para mexer na estrutura das bases de dados.

		O comando "collapse" agrega a base de dados segundo alguma regra 
	especificada.
		
		O comando "merge" agrega duas bases de dados de acordo com alguma(s)
	variável(is) de identificação em comum entre elas.
	
		O comando "append" agrega uma base de dados no final de outra base. Ou
	seja, esse comando adiciona mais observações na base de dados.
*/
}
*


* Primeiro, vamos usar o comando "collapse" nas duas bases que abrimos.
* Vamos agregar por UF.
{
use "PNAD2015.dta", clear

collapse (mean)rendimento, by(uf)

sa "PNAD_collapse.dta", replace


use "PB2017.dta", clear

collapse (mean)proficiencia_mt_saeb, by(id_uf)
ren id_uf uf

sa "PB_collapse.dta", replace
}
*


* Agora, podemos usar o comando "merge" para agregar as duas bases após o
* collapse.
{
use "PNAD_collapse.dta", clear

merge 1:1 uf using "PB_collapse.dta"

* Observe que utilizamos a configuração "1:1". Isso indica que o "merge" das 
* bases será feito entre valores únicos de UF das bases.

* Outras opções são:
* "1:m" indica que a variável de identificação na base master só tem valores
* únicos e que a base "using" pode apresentar identificações duplicadas.

* "m:m" indica que a variável de identificação na base master pode ter valores
* duplicados e que a base "using" pode apresentar identificações duplicadas.
}
*



* Também podemos utilizar o comando "append"
{
use "PNAD_collapse.dta", clear

append using "PB_collapse.dta", force
}
*