** FLS 6183 & FLP 0468 ** Lab 2: Erro de Mensuração - Answer Key * Data: 15/09/2016 * Objetivo: * Os presupostos do modelo de regressão enfatizam as propriedades que deveria ter o erro. * Neste laboratorio, vamos utilizar uma simulação para demostrar como os problemas de erro * de mensuração de nossas variaveis podem levar a vies de nossas estimativas e mostramos * o mecanismo de transmissao. * * Mesmo que o lab é voltado a discutir o problema com dados de simulação, * como pesquisadores, em nosso dia-a-dia, enfrentamos o problema de viés de mensuração * em nossas variáveis. Um caso clássico é o das perguntas em surveys sobre a renda dos * indivíduos. De um modo geral, os entrevistados não se lembram exatamente de sua * renda no mês de referência ou no ano anterior, reportando um valor aproximado, * inexato. Portanto, um pesquisador que trabalhe com esses dados, por exemplo, * tem que estar alerta sobre a possibilidade de se ter viés em sua variável. * O lab analisa este problema no modelo bivariado com dois exercicios: * a) o problema de viés na mensuração da variável independente e, * b) o problema de viês na mensuração na variavel dependente. clear * Vamos supor que temos a distribuição populacional da variável dependente (Y) e da * variável independente (X). Iremos chamar as medidas populacionais de Yt e Xt, * sendo t as "true measures" e as medidas observadas de Y e X. * Criamos um banco de dados com N=500, estipulamos que Xt tem uma média de 7 e desvio * padrão de 8 e Yt tem média de média de 10 e desvio padrão de 4. Além disso, * estipulamos que a correlação entre Xt e Yt é de 0.7. Abaixo criamos um banco de * dados a partir das informações dadas acima. Finalmente, assinalamos que Yt e Xt * são variáveis aleatórias e com distribuição normal. matrix m = (7,10) matrix sd = (8,4) matrix C = (1, .7 \ .7, 1) drawnorm Xt Yt, n(500) means (m) sds(sd) corr(C) seed(14092016) summarize corr Yt Xt * Sabemos que há erro de mensuração tanto em nossa variável dependente quanto * na variável independente. Assim, iremos criar duas variáveis aleatórias ey * (erro de mensuração de Y) e ex (erro de mensuração de X). Estipulamos que ey * apresenta uma distribuição normal com média de 0 e desvio padrão de 3 e ex também * apresenta distribuição normal, mas com média de 0 e desvio padrão de 6. gen ey=rnormal(0,3) gen ex=rnormal(0,6) * Desse modo, a variável observada Y é formada por Yt ("a medida verdadeira") e pelo * erro de mensuração ey. E, a variável observada X é composta por Xt ("a medida * verdadeira") e ex que é o erro de mensuração dessa variável. gen Y = Yt + ey gen X = Xt + ex * Dado que sabemos que há problemas envolvendo erro de mensuração em Y e em X, agora iremos * avaliar os efeitos da falta de confiabilidade de nossas medidas. * Exercício 1 * Avalie os efeitos da falta de confiabilidade de nossas medidas analisando a média da variável * dependente e independente. sum Yt Y Xt X ttest Y==Yt ttest X==Xt * Resposta 1: Dado que os erros são aleatórios, ex tem média de 0, portanto, o erro de mensuração * aleatório não provoca viés no valor esperado da variável. Isto é, E(X) = E(Xt). * Em suma, não existe viés na estimativa da média e que isso é facilmente comprovável através de teste * de hipótese. * Exercício 2 * Avalie os efeitos da falta de confiabilidade de nossas medidas analisando a variância das * variáveis. sum Yt Y Xt X sdtest Y==8 sdtest X==4 *Ou se conhecidos os parâmetros populacionais: sdtest Y==Yt sdtest X==Xt * Resposta 2: Dado que os erros são aleatórios, a CV (Xt, ex) = 0, portanto, o erro de mensuração * aleatório provoca variâncias viesadas. A variância da variável observada será maior que o valor * verdadeiro. * Em suma, a existência de viés pode ser identificada através de teste que aponta que a variância * amostral é estatisticamente superior à populacional simulada. * Exercício 3 * Supondo que Yt mensura perfeitamente a variável Y, avalie os efeitos da falta de confiabilidade * de X analisando a covariância entre as variáveis. corr Yt Xt X, cov * Resposta 3: Dado que a COV de ex com Yt é 0, então a COV (X, Yt) = COV (Xt, Yt). Portanto, * as covariâncias não são viesadas pelo erro de mensuração aleatório. * Exercício 4 * Supondo que Yt mensura perfeitamente a variável Y, porém X apresenta um problema de erro de * mensuração aleatório, avalie a confiabilidade de X analisando a correlação entre as variáveis. pwcorr Yt Xt X, sig * Resposta 4: O erro de mensuração aleatório produz um viés para baixo na correlação entre * X e Yt comparado a correlação de Xt com Yt. Nesse caso, há um viés de atenuação. * Exercício 5 * Supondo que Yt mensura perfeitamente a variável Y, porém X apresenta um problema de erro de * mensuração aleatório, avalie o efeito de tal problema sobre os resultados da * regressão bivariada entre Yt e Xt e da regressão entre Yt e X. Compare os resultados. reg Yt Xt reg Yt X * Para comparar os resultados de dois modelos, temos que utilizar o mesmo número de observações, * nesse sentido, utilizaremos o comando "mark nomiss" para marcar as variáveis que não tem * casos de missing nas variáveis Yt, Xt e X. Desse modo, utilizaremos a mesma "amostra" em todas * as regressões. mark nomiss tab nomiss markout nomiss Yt Xt X reg Yt Xt if nomiss==1 estimate store m1, title(Modelo 1) reg Yt X if nomiss==1 estimate store m2, title(Modelo 2) estout m1 m2, cells(b(star fmt(3)) se(par fmt(2))) legend label varlabels(_cons constant) stats(r2 N, fmt(3 2) label(r2 Obs)) * Resposta 5: O erro de mensuração aleatório na variável independente produz um problema de viés * para baixo no coeficiente de inclinação da regressão bivariada. * Exercício 6 * Agora, supondo que Xt mensura perfeitamente a variável X, porém Y apresenta um problema de erro de * mensuração aleatório, avalie o efeito do erro de mensuração aleatório sobre os resultados * da regressão bivariada entre Yt e Xt e da regressão entre Y e Xt. Compare os resultados. reg Yt Xt reg Y Xt * Para comparar os resultados de dois modelos, temos que utilizar o mesmo número de observações, * nesse sentido, utilizaremos o comando "mark nomiss" para marcar as variáveis que não tem * casos de missing nas variáveis Yt, Y e Xt. Desse modo, utilizaremos a mesma "amostra" em todas * as regressões. drop nomiss mark nomiss tab nomiss markout nomiss Yt Y Xt reg Yt Xt if nomiss==1 estimate store m1, title(Modelo 1) reg Y Xt if nomiss==1 estimate store m2, title(Modelo 2) estout m1 m2, cells(b(star fmt(3)) se(par fmt(2))) legend label varlabels(_cons constant) stats(r2 N, fmt(3 2) label(r2 Obs)) * Resposta 6: O erro de mensuração aleatório na variável dependente não produz um viés no coeficiente * de inclinação da reta, porém causa um aumento no erro padrão, consequentemente, aumento no intervalo * de confiança da estimativa. * Exercício 7 * Discuta sobre os resultados encontrados no exercício 5 e 6 pensando * especialmente sobre os presupostos do modelo de regressão. * Resposta 7: Comparando os resultados, podemos notar que quando há erro de mensuração nas variáveis, o * problema é ainda mais grave no caso da variável independente. A estimativa do impacto da variável * independente sobre a dependente é viesada quando temos problema de mensuração em X, o mesmo não * ocorre quando se trata de erro de mensuração em Y. No primeiro caso, nossas estimativas são viesadas * para baixo, enquanto que no segundo caso temos estimativas não viesadas, mas com intervalos de * confiança maiores.