Atenção, essa lista é composta por 4 questões. Entregue a lista no formato via Stoa até às 12:00 do dia 23/03 (segunda-feira)

Questão 1 - Preparação das bases de dados

a) Faça o download das bases de dados que vamos usar na lista

Vamso usar duas bases de dados diferentes nessa lista. A primeira, é a mesma da lista 1 e está no stoa na parte de Heterocedasticidade e se chama “[Monitoria 1] Base de dados”.

A segunda é uma base nova, que está no stoa na parte “Especificação e dados” e se chama “[Monitoria 2] Base de dados”.

b) Salve a base de dados no diretório (pasta) que você criou em seu computador

c) Instale e requisite os pacotes que vamos usar nessa lista

Para instalar utilize o comando install.packages. Depois de instalado em seu computador, não precisa instalar mais, só requisitar. Por isso, depois de instalar, coloque um # em frente ao install.packages para que não instale novamente. (Quando se coloca um # em frente ao comando, esse comando se torna um comentário)

Escreva no script retirando o primeiro #:

#install.packages("dplyr")  #pacote para limpar as bases
#install.packages("lmtest") #pacote para fazer testes de regressão multipla
#install.packages("car") #pacote para testar hipótese lienar

library(dplyr)
library(lmtest)
library(car)    

options(scipen = 999) #Desligamos a notação cientifica

Questão 2- Omissão de variávies relevantes

A base de dados que vamos utilizar para esta questão é a mesma da lista passada. Esta base é a PNAD 2015-Pesquisa Nacional por Amostra de Domicílios, uma base de dados real do Brasil.

a) Abra a base de dados e filtre seu estado

O seu estado é o mesmo estado da lista passada (caso não lembre, abra o arquivo da lista passada e olhe). Para isso, utilize os seguintes comandos:

df<-read.csv("PNAD-2015-ajustada.csv")
df<-df%>%
  filter(uf==33) #se meu estado fosse o 33 eu colocaria assim

b) Suponhamos que queiramos estimar explicar a renda do indivíduo e estimamos a seguinte regressão:

\[salário=\beta_0+\beta_1idade+\beta_2sexo+\beta_3raça+\beta_4escolaridade+erro\]

Você acha que falta alguma variável importante para o modelo? Qual? Explique a consequência da omissão de uma variável relevante para os estimadores.

c) Estime uma regressão com as variáveis que você acha importante acrescentar. Explique porque você adicionou essas variáveis no modelo.

Questão 3 - Má especificação da forma funcional

Para essa questão, vamos continuar usando a base de dados da questão 2. Mesmo que incluirmos todas as variáveis relevantes para o modelo, a forma funcional da variável dependente pode não estar especificada da forma correta.

a) Faça o teste RESET para verificar se a forma funcional da variável dependente está especificada da forma correta. Explique a ideia do teste e mostre os resultados.

b) Estime a mesma regressão com outra forma funcional da variável dependente que você ache mais adequada e interprete os coeficientes

Questão 4 - Variáveis Proxy

Para essa questão, vamos usar uma base diferente. Vamos usar os dados da Prova Brasil de 2017 do 9º ano para o estado de São Paulo. Todos os dados são referentes a escolas, e não indivíduos. As variáveis contidas na base de dados são as seguintes:

Nome variável Definição
codigo_escola Codigo identificador da escola
ano Ano da Prova Brasil
urbano Dummy indicando 1 urbano , 0 rural
Mmat Nota da escola em matemática Escala SAEB
Mport Nota da escola em português -Escala SAEB
Pbrancos Proporção de alunos brancos na escola
PIdade_certa Proporção de alunos que estão na idade certa na escola
PMae_analfabet Proporção de alunos que tem mães analfabetas na escola
PTrabalha Proporção de alunos na escola que trabalham
PTv Proporção de alunos na escola que
tem TV no domicílio
PGeladeira Proporção de alunos na escola que
tem empregada no domicílio
PAbandono Proporção de alunos na escola que
já abandonaram a escola
PComputador Proporção de alunos na escola que
tem computador no domicílio

Antes de iniciar o exercício, abra a base de dados da Prova Brasil

Dica1: nomeie de forma diferente da base de dados anterior -coloque df2 ou dfPB, como desejar-

Dica2: Utilize o comando head(#nomedabase) para ver as primeiras linhas da base no seu console

a) Suponhamos que queremos explicar a nota de matemática de uma escola.Para isso, queremos estimar o seguinte modelo:

\[Mmat=\beta_0+\beta_1PIdade-certa+\beta_2PTrabalha+\beta_3PAbandono+\beta_4Urbano+\beta_5Rendafamiliar+\mu\] No entanto, não temos a variável de renda familiar. Dentre as variáveis da base, qual/quais você escolheria para ser uma proxy para a renda? Justifique

b) Quais são as hipóteses necessárias para que essa variável escolhida seja uma boa proxy de renda? Explique as hipóteses.

c) Estime o modelo descrito no item “a”" sem a variável proxy e com a variável proxy escolhida. Os coeficientes dos estimadores mudaram? Explique as diferenças.