Programação
-
Aula 9
Coeficiente de correlação e de determinação
Tabela de análise de variância-
Dinâmica
Vimos na aula anterior como estimar os coeficientes da equação de reta que expressa a relação linear entre duas variáveis. Temos como tarefa hoje discutir as questões: (i) quão bom é esse ajuste?; e (ii) qual o grau de linearidade da relação dessas duas variáveis? Para responder a essas questões usamos dois conceitos estatísticos apresentados na parte final do roteiro de estudos da aula passada: coeficiente de correlação e coeficiente de determinação.
Vamos praticar o uso desses dois conceitos em um novo problema. Considere a questão que alguns cientistas ambientais encontraram ao perceber um certo declínio no crescimento das florestas em várias partes do mundo. Um aspecto desse declínio é o possível efeito das emissões de usinas de energia elétrica com base em carvão mineral. Nesse caso, os cientistas estão especialmente preocupados com a relação “nível de pH do solo” e “crescimento das árvores”.
Estudos em várias florestas expostas a esse problema vêm sendo conduzidos, através da análise do crescimento das árvores e do pH dos solos nessas regiões. O interesse é avaliar os impactos sobre o crescimento das árvores conforme o solo se torna mais ácido. Índices de redução do crescimento são construídos para certos parâmetros florestais, onde altos valores expressam altos declínios de crescimento.
Quanto maior o pH do solo, mais ácido é o solo. Vinte e três talhões próximos a usinas que utilizam o carvão mineral foram selecionadas em um determinado estudo. O índice de redução do crescimento e o correspondente pH médio do solo observados nesses estudos foram plotados no seguinte gráfico:
Exercício em grupo
Faça o download da planilha com os dados usados para gerar o gráfico acima clicando AQUI, e complete os cálculos necessários para a obtenção dos coeficientes do modelo de regressão linear, dos valores da tabela de análise de variância, e os valores dos coeficientes de correlação e de determinação. Escolha uma sala e discuta as suas dúvidas com os demais colegas. Concluam a tarefa trabalhando em grupo, mas não se esqueça que a submissão das respostas é individual e que apenas receberão presença nesta aula aqueles que entregarem o ED. Copie o intervalo de células A1..N32 da planilha para um documento Word, acrescente os seus comentários e salve no formato PDF. Nomeie o documento PDF da seguinte forma: ED10_<NoUSP>.pdf (use o seu número USP para identificar a sua tarefa). Faça o upload desse PDF usando o link desta tarefa.
-
O quadro de análise de variância (ANOVA)
No final de cada exercício de regressão linear, calculamos somas de quadrados. Essas somas de quadrados foram usadas para compor um quadro de análise de variância (ANOVA). Quadros de análise de variância são frequentemente usados para determinar se médias de três ou mais grupos são diferentes. A ANOVA usa testes F para testar estatisticamente a igualdade entre essas médias. Os testes-F recebem esse nome em homenagem a um dos "pais da Estatística", Ronald Fisher. A estatística F é simplesmente uma razão de duas variâncias. As variâncias, como medidas de dispersão, medem o grau de dispersão de dados agrupados com relação à média de cada grupo. Valores maiores representam maior dispersão. As estatísticas F são baseadas na razão entre quadrados médios, que por sua vez são estimativas das variâncias dos respectivos grupos. Os testes F são usados nas análises de regressão linear e nos estudos de diferenças entre grupos. Assim sendo é possível usar testes F para avaliar a significância global de um modelo de regressão, comparar os ajustes de diferentes modelos, testar termos de regressão específicos e testar diferenças entre médias.
Vamos entender melhor isso, assistindo a uma vídeo-aula preparada pelo Diego Pujoni, um entusiasta da Análise de Dados e da Estatística que se apresenta como "... formado em biologia e estatística e completamente apaixonado por análise de dados e ensino de matemática e de estatística. Minha missão é reconstruir seu senso numérico, criando as bases fundamentais para que você desenvolva um pensamento estatístico de forma intuitiva e prazerosa, permitindo viver uma experiência que vai transformar seu modo de fazer inferências a partir de dados." No vídeo, o Diego apresenta de forma bem didática a utilidade dos quadros de análise de variância (ANOVA) e por que são usados tanto na regressão linear como em análises de diferenças entre grupos. Conheça primeiro o autor, e depois assista à explicação do porque quadros de ANOVA são úteis tanto nas análises de diferenças entre grupos como nas análises de regressão.
Diego Pujoni,
um entusiasta
da análise de dados
e da estatística,
se apresentaQuadro de
análise de variância
na análise de regressão e
nos testes de diferenças
entre gruposFaça o download da planilha clicando AQUI, desenvolva uma análise que estude a relação entre longevidade, IDH e PIB de 182 países. Obtenha (i) a tabela de análise de variância, e os valores dos coeficientes (ii) de correlação e de (iii) determinação. Discuta as suas dúvidas com os demais colegas. Concluam a tarefa trabalhando em grupo, mas não se esqueça que a submissão das respostas é individual e que apenas receberão presença nesta aula aqueles que entregarem este estudo dirigido. Ao entregar, nomeie o seu arquivo PDF usando o seguinte padrão: ED11_<NoUSP>.pdf (use o seu número USP para identificar a sua tarefa). Faça o upload desse PDF usando o link desta tarefa.