Erro de medida na variável dependente
Vamos trabalhar com uma base de dados dos números de casos de coronavírus por país. O total de casos e o número de casos foi retirado do Our World in data. A última atualização dos dados foi dia 30/03. Usaremos como covariadas a renda per capita do país, e o percentual de idosos (acima de 65 anos) na população. Essas variáveis foram retiradas do World Bank Data.
Como cada país começou a ser exposto ao vírus em datas diferentes, a base foi modificada da seguinte forma: o número de mortes é relativo ao total de mortes em 10 dias conscutivos após o 200º caso. Desse modo, todos os países na base tem o mesmo período de exposição.
Queremos estimar o número de mortes em função da renda per capita do país, e em função do nº de idosos.
a) Seja \(y\) a nossa variável de interesse o número de mortes por coronavírus. No entanto, não conseguimos observar essa variável, observamos apenas o número de mortes de pessoas que realizaram o teste do coronavírus.
Seja \(y^*\) o número de mortes de pessoas que foram testadas, ou seja, a variável que conseguimos observar. Vamso fazer a seguinte regressão no R: \[y^*=\beta_0+\beta_1 log(rendapc)+\beta_2 porc.idosos+u\]
a.i) Vamos abrir a base de dados e ver as primeiras linhas da base.
library(dplyr) #pacote para 'limpar' base de dados
library(stargazer) #pacote para visualizar a regressão
library(ggplot2) #pacote para gráfico
library(ggrepel) #pacote para legenda do gráfico
df<-read.csv("Bases/Coronavirus-30-03-20.csv")
head(df)
## X países num.casos num.mortes porc.idosos rendapc
## 1 1 Albania 212 10 13.744736 12316.072
## 2 2 Algeria 454 29 6.362497 13737.356
## 3 3 Argentina 820 20 11.117789 18288.245
## 4 4 Armenia 424 3 11.253818 9177.744
## 5 5 Australia 4093 16 15.656475 45377.755
## 6 6 Austria 8813 86 19.001566 46260.382
a.ii) Vamos fazer um MQO, usando como variável dependente o log do número de mortes.
MQO<-lm(log(num.mortes)~log(rendapc)+porc.idosos,df)
stargazer(MQO,type="text")
##
## ===============================================
## Dependent variable:
## ---------------------------
## log(num.mortes)
## -----------------------------------------------
## log(rendapc) 0.006
## (0.364)
##
## porc.idosos 0.115***
## (0.041)
##
## Constant 1.726
## (3.472)
##
## -----------------------------------------------
## Observations 76
## R2 0.117
## Adjusted R2 0.093
## Residual Std. Error 2.069 (df = 73)
## F Statistic 4.826** (df = 2; 73)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
O resultado aponta que 1 ponto percentual a mais na proporção de idosos aumenta o número de mortes em 11,5%.
b) Como o erro de medida pode ser representado? Lembre-se que a variável dependente está na forma logarítimica.
c) É razoável supor que o erro de medida esteja correlacionado com alguma das variáveis explicativas? Pense na discussão sobre a disponibilidade de teste para o vírus.
d) Caso o erro seja correlacionado com alguma das covariadas, os coeficientes continuam não viesados? Explique, e argumente se podemos continuar com a interpretação dos coeficientes do item ‘a’.