Atenção, essa lista é composta por 4 questões. Entregue a lista no formato via Stoa até às 12:00 do dia 23/03 (segunda-feira)
a) Faça o download das bases de dados que vamos usar na lista
Vamso usar duas bases de dados diferentes nessa lista. A primeira, é a mesma da lista 1 e está no stoa na parte de Heterocedasticidade e se chama “[Monitoria 1] Base de dados”.
A segunda é uma base nova, que está no stoa na parte “Especificação e dados” e se chama “[Monitoria 2] Base de dados”.
b) Salve a base de dados no diretório (pasta) que você criou em seu computador
c) Instale e requisite os pacotes que vamos usar nessa lista
Para instalar utilize o comando install.packages. Depois de instalado em seu computador, não precisa instalar mais, só requisitar. Por isso, depois de instalar, coloque um # em frente ao install.packages para que não instale novamente. (Quando se coloca um # em frente ao comando, esse comando se torna um comentário)
Escreva no script retirando o primeiro #:
#install.packages("dplyr") #pacote para limpar as bases
#install.packages("lmtest") #pacote para fazer testes de regressão multipla
#install.packages("car") #pacote para testar hipótese lienar
library(dplyr)
library(lmtest)
library(car)
options(scipen = 999) #Desligamos a notação cientifica
A base de dados que vamos utilizar para esta questão é a mesma da lista passada. Esta base é a PNAD 2015-Pesquisa Nacional por Amostra de Domicílios, uma base de dados real do Brasil.
a) Abra a base de dados e filtre seu estado
O seu estado é o mesmo estado da lista passada (caso não lembre, abra o arquivo da lista passada e olhe). Para isso, utilize os seguintes comandos:
df<-read.csv("PNAD-2015-ajustada.csv")
df<-df%>%
filter(uf==33) #se meu estado fosse o 33 eu colocaria assim
b) Suponhamos que queiramos estimar explicar a renda do indivíduo e estimamos a seguinte regressão:
\[salário=\beta_0+\beta_1idade+\beta_2sexo+\beta_3raça+\beta_4escolaridade+erro\]
Você acha que falta alguma variável importante para o modelo? Qual? Explique a consequência da omissão de uma variável relevante para os estimadores.
c) Estime uma regressão com as variáveis que você acha importante acrescentar. Explique porque você adicionou essas variáveis no modelo.
Para essa questão, vamos continuar usando a base de dados da questão 2. Mesmo que incluirmos todas as variáveis relevantes para o modelo, a forma funcional da variável dependente pode não estar especificada da forma correta.
a) Faça o teste RESET para verificar se a forma funcional da variável dependente está especificada da forma correta. Explique a ideia do teste e mostre os resultados.
b) Estime a mesma regressão com outra forma funcional da variável dependente que você ache mais adequada e interprete os coeficientes
Para essa questão, vamos usar uma base diferente. Vamos usar os dados da Prova Brasil de 2017 do 9º ano para o estado de São Paulo. Todos os dados são referentes a escolas, e não indivíduos. As variáveis contidas na base de dados são as seguintes:
Nome variável | Definição |
---|---|
codigo_escola | Codigo identificador da escola |
ano | Ano da Prova Brasil |
urbano | Dummy indicando 1 urbano , 0 rural |
Mmat | Nota da escola em matemática Escala SAEB |
Mport | Nota da escola em português -Escala SAEB |
Pbrancos | Proporção de alunos brancos na escola |
PIdade_certa | Proporção de alunos que estão na idade certa na escola |
PMae_analfabet | Proporção de alunos que tem mães analfabetas na escola |
PTrabalha | Proporção de alunos na escola que trabalham |
PTv |
Proporção de alunos na escola que tem TV no domicílio |
PGeladeira |
Proporção de alunos na escola que tem empregada no domicílio |
PAbandono |
Proporção de alunos na escola que já abandonaram a escola |
PComputador |
Proporção de alunos na escola que tem computador no domicílio |
Antes de iniciar o exercício, abra a base de dados da Prova Brasil
Dica1: nomeie de forma diferente da base de dados anterior -coloque df2 ou dfPB, como desejar-
Dica2: Utilize o comando head(#nomedabase) para ver as primeiras linhas da base no seu console
a) Suponhamos que queremos explicar a nota de matemática de uma escola.Para isso, queremos estimar o seguinte modelo:
\[Mmat=\beta_0+\beta_1PIdade-certa+\beta_2PTrabalha+\beta_3PAbandono+\beta_4Urbano+\beta_5Rendafamiliar+\mu\] No entanto, não temos a variável de renda familiar. Dentre as variáveis da base, qual/quais você escolheria para ser uma proxy para a renda? Justifique
b) Quais são as hipóteses necessárias para que essa variável escolhida seja uma boa proxy de renda? Explique as hipóteses.
c) Estime o modelo descrito no item “a”" sem a variável proxy e com a variável proxy escolhida. Os coeficientes dos estimadores mudaram? Explique as diferenças.