/* Do file preparado para as monitorias de laboratório de Econometria II - pós
graduação.


As primeiras monitorias abordarão os seguintes temas:

	I) Princípios básicos do Stata;
	
	II) Dados (tipos, formatação, operações, etc);
	
	III) Bases de dados (abertura, formatação, etc);
	
	IV) Análise estatística;
	
	V) Análise econométrica. OBS: Vamos realizar modificações para a aula V!
								Vamos destrinchar essa aula em diversas aulas que
							abordarão as estimações aprendidas em Econometria II.
								Essas estimações serão apresentadas em formas de
							replicações de artigos já publicados e que realizaram
							tais estimações.
	


Cronograma:

	# 12/08 - temas I, II
	
	# 19/08 - tema III
	
	# 26/08 - tema IV
	
	# Datas a ser definidas - temas V


	
Quaisquer dúvidas, enviem um e-mail para leandro.anazawa@usp.br
*/





********************************************************
**********************   AULA 3   **********************
********************************************************

* ANÁLISE ESTATÍSTICA

{
/*
		Nesta aula vamos aprender sobre análises estatísticas utilizando o Stata.
		
		Vamos abordar os seguintes tópicos:
			
			I) Estatísticas descritivas;
			
			II) Teste de médias;
			
			III) Teste Kolmogorov-Smirnov;
			
			IV) Estatística de correlação (Pearson);
			
			V) Criando variáveis com os resultados dos testes;
			
			VI) Estimação por MQO;
			
			VII) Recuperando as estimativas do MQO.
*/
}
*



{
* 		Definindo a pasta referência para o Stata e abrindo a base de dados da Aula 01.

cd "C:\Users\leand\Google Drive\Matérias_doc_2019_02\Monitoria Eco II"

use "Aula 01 - base.dta", clear

}
*



* Summarize
{
*		Se você precisa de informações básicas da variável, utilize o comando "sum" com
*	a opção "detail".

sum idade, detail



*		Se você precisar verificar algum percentil em específico, utilize o comando
*	"centile". A opção "c(25)" retorna o valor do percentil 25.

centile idade, c(25)

}
*



* Tabulate
{
*		Para verificar a distribuição conjunta de variáveis, utilize o comando "tab".

tab cor mulher



*		Também podemos utilizar o "tab" para obter as porcentagens dessa distribuição

tab cor mulher, cell

tab cor mulher, col

tab cor mulher, row

}
*



* Teste t
{
*		Podemos realizar testes de médias com o teste t.

ttest rend_trab_principal, by(mulher)

}
*



* Teste de Kolmogorov-Smirnov (KS)
{
/*
		Para o caso não paramétrico, podemos realizar o teste de Kolmogorov-Smirnov
		
		O teste KS compara as distribuições de probabilidade acumulada, F(x), da variável de
	interesse. Verifique na tabela de resultados do comando "ksmirnov" que a primeira
	linha representa o teste de que o salário dos homens é menor que o salário das
	mulheres. Verifique que a "D" representa a maior diferença de F(x) nesse cenário.

		Ou seja, a maior diferença entre a F(salário) em que o salário de homens é menor
	do que o salário das mulheres é de 0,0001.
	
		Já no caso contrário (salário de homens é maior do que o das mulheres), temos
	uma maior diferença (-0,2403).
	
		A linha "Combined K-S" indica a combinação dos dois resultados anteriores.
*/

ksmirnov rend_trab_principal, by(mulher)

}
*



* Correlação de Pearson
{
*		A clássica correlação de Pearson!

corr rend_trab_principal idade



*		Podemos verificar visualmente sssa correlação através de um gráfico de dispersão.

scatter rend_trab_principal idade

}
*



* Return list
{
/*		Os comandos de estatísticas descritivas apresentados aqui geram resultados
	que ficam guardados temporariamente na memória do Stata.
	
		Por exemplo, ao rodar o comando "sum", podemos verificar quais resultados
	foram guardados na memória do Stata com o comando "return list".

		Esses resultados ficam guardados na memória do Stata até que o próximo
	comando seja rodado.
*/

sum idade, detail

return list



*		Esses resultados podem ser utilizados para criar novas variáveis!

gen media_idade = r(mean)

}
*



* Regressão linear - estimação por MQO
{
/*		Já vimos o comando de estimação por MQO na Aula 01 que é comando "reg".

		Note que o comando "reg" também gera resultados que são guardados na
	memória do Stata. Entretanto, como o comando "reg" é de estimação, utilizamos
	o comando "ereturn list" para obter os resultados guardados.
*/

reg rend_trab_principal mulher idade urbano

ereturn list

}
*



* Recuperando as estimativas do MQO
{
/*		
		Podemos utilizar os resultados guardados da estimação para realizar análises.
		
		Uma forma prática é utilizar o comando pronto "predict". Entretanto, ele
	é restrito nas possibilidade do que pode ser feito.
	
		Outra forma é trabalhar com a matriz de betas estimados com o comando "mat"
	e "svmat".
*/

reg rend_trab_principal mulher idade urbano

ereturn list



* 		Calculando a estimativa da variável dependente para cada observação

predict y_chapeu, xb



* 		Calculando o resíduo para cada observação

predict residuo, residuals



* 		Note que a soma da estimativa da variável dependente e do resíduo é igual ao
*	valor observado da variável dependente!

bro rend_trab_principal y_chapeu residuo



* 		Podemos utilizar as estimativas dos Betas individualmente também! Para isso,
*	utilizamos comando de matriz.


* 		Criando uma matriz com os valores das estimativas dos Betas com o comando "mat".

mat b_ = e(b)


* 		Transformando os valores da matriz em variáveis na base de dados com o comando "svmat".

svmat b_

}
*