Atenção, essa lista é composta por 3 questões. Esta lista não precisa ser entregue, mas serve como instrumento guia de estudo.

1) Questão teórica

Erro de medida na variável explicativa

Seja : \[y=\beta_0+\beta_1x_1^*+u \text{ onde } x_1^* \text{ é não observada}\] O erro de medida é tal que \(e_1= x_1-x_1^*\), e assumimos que \(E(e_1)=0\)

a) Explique porque se \(cov(x_1,e_1)=0\) , o estimador de MQO continua sendo consistente.

b) O que é o erro clássico nas variáveis? Mostre que no caso de erro clássico o estimador de MQO é viesado.

c) Nesse caso de erro clássico, o estimador de MQO é consistente? Explique também o que é o viés de atenuação.

2) Questão Prática - Coronavírus (I)

Erro de medida na variável dependente

Vamos trabalhar com uma base de dados dos números de casos de coronavírus por país. O total de casos e o número de casos foi retirado do Our World in data. A última atualização dos dados foi dia 30/03. Usaremos como covariadas a renda per capita do país, e o percentual de idosos (acima de 65 anos) na população. Essas variáveis foram retiradas do World Bank Data.

Como cada país começou a ser exposto ao vírus em datas diferentes, a base foi modificada da seguinte forma: o número de mortes é relativo ao total de mortes em 10 dias conscutivos após o 200º caso. Desse modo, todos os países na base tem o mesmo período de exposição.

Queremos estimar o número de mortes em função da renda per capita do país, e em função do nº de idosos.

a) Seja \(y\) a nossa variável de interesse o número de mortes por coronavírus. No entanto, não conseguimos observar essa variável, observamos apenas o número de mortes de pessoas que realizaram o teste do coronavírus.

Seja \(y^*\) o número de mortes de pessoas que foram testadas, ou seja, a variável que conseguimos observar. Vamso fazer a seguinte regressão no R: \[y^*=\beta_0+\beta_1 log(rendapc)+\beta_2 porc.idosos+u\]

a.i) Vamos abrir a base de dados e ver as primeiras linhas da base.

library(dplyr) #pacote para 'limpar' base de dados
library(stargazer) #pacote para visualizar a regressão
library(ggplot2) #pacote para gráfico
library(ggrepel) #pacote para legenda do gráfico

df<-read.csv("Bases/Coronavirus-30-03-20.csv")

head(df)

##   X    países num.casos num.mortes porc.idosos   rendapc
## 1 1   Albania       212         10   13.744736 12316.072
## 2 2   Algeria       454         29    6.362497 13737.356
## 3 3 Argentina       820         20   11.117789 18288.245
## 4 4   Armenia       424          3   11.253818  9177.744
## 5 5 Australia      4093         16   15.656475 45377.755
## 6 6   Austria      8813         86   19.001566 46260.382

a.ii) Vamos fazer um MQO, usando como variável dependente o log do número de mortes.

MQO<-lm(log(num.mortes)~log(rendapc)+porc.idosos,df)
stargazer(MQO,type="text")

## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                           log(num.mortes)      
## -----------------------------------------------
## log(rendapc)                   0.006           
##                               (0.364)          
##                                                
## porc.idosos                  0.115***          
##                               (0.041)          
##                                                
## Constant                       1.726           
##                               (3.472)          
##                                                
## -----------------------------------------------
## Observations                    76             
## R2                             0.117           
## Adjusted R2                    0.093           
## Residual Std. Error       2.069 (df = 73)      
## F Statistic            4.826** (df = 2; 73)    
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

O resultado aponta que 1 ponto percentual a mais na proporção de idosos aumenta o número de mortes em 11,5%.

b) Como o erro de medida pode ser representado? Lembre-se que a variável dependente está na forma logarítimica.

c) É razoável supor que o erro de medida esteja correlacionado com alguma das variáveis explicativas? Pense na discussão sobre a disponibilidade de teste para o vírus.

d) Caso o erro seja correlacionado com alguma das covariadas, os coeficientes continuam não viesados? Explique, e argumente se podemos continuar com a interpretação dos coeficientes do item ‘a’.

3) Questão Prática - Coronavírus (II)

Observações extremas

Queremos ver se existe alguma observação extrema (outliers) em nossa base de dados.

Vamos plotar um gráfico de dispersão usando o pacote ‘ggplot2’ e colocar a legenda dde alguns países com o pacote ‘geom_label_repel’. Caso não tenha os pacotes, instale-os.

ggplot(df, aes(x=porc.idosos, y=num.mortes)) +
  geom_point() + 
    geom_label_repel(data=subset(df,(num.mortes>=250|porc.idosos>=20)),
              aes(label = países), size = 2.8, nudge_y = 0)

a) Existe algum possível outlier nesses dados? Quais são as consequências para uma estimação de MQO com outliers? obs: observe o número (n) de observações que estamos trabalhando.

b) Vamos agora fazer o gráfico em logaritimo. Perceba que essa forma funcional ‘torna’ os dados menos sensíveis a variáveis extremas.

ggplot(df, aes(x=porc.idosos, y=log(num.mortes))) +
  geom_point() + 
    geom_text(data=subset(df,(log(num.mortes)>=5|porc.idosos>=20)),
              aes(label = países), size = 3.8, nudge_y = 0.8,
    check_overlap = TRUE)

```

Lista 3 - Erro de Medida + Outliers