• Aula 9

    Coeficiente de correlação e de determinação
    Tabela de análise de variância


    • Agenda

      • Síntese: Aprendemos nas aulas passadas a analisar estatisticamente se duas variáveis se relacionam linearmente. Daremos hoje especial ênfase aos conceitos de coeficiente de correlação e coeficiente de determinação. Nos exemplos que usamos para ilustrar as análise, calculamos somas de quadrados (SQ) e somas de quadrados médios (SQM).  Os SQM's calculados podem ser interpretados como estimativas de variâncias e, portanto, podem ser usados em quadros de análise de variância (ANOVA).  Hoje vamos nos aprofundar no estudo desses quadros e entender para que servem.
      • Dinâmica
        • Primeiro bloco: trabalharemos no ED10, que nos permite um aprofundamento no estudo de dois importantes conceitos estatísticos citados no roteiro que temos usado nos nossos estudos (coeficiente de correlação e coeficiente de determinação).
        • Segundo bloco: leremos um texto que resume os conceitos que estudamos até agora, e que normalmente são apresentados em quadros de análise de variância (ANOVA). Assistam os dois vídeos produzidos por um biólogo que nos motiva a "gostar de quadros de análise de variância (ANOVA)".
        • Terceiro bloco: trabalharemos no ED11, que nos pede para produzir um quadro de ANOVA para o estudo da relação entre longevidade, IDH e PIB de 182 países. Esses dados serão usados nesta e na próxima aula.
        • Quarto bloco: visitaremos alguns sites que disponibilizam dados muito interessantes para possíveis análises de regressão.


    • Dinâmica

      Vimos na aula anterior como estimar os coeficientes da equação de reta que expressa a relação linear entre duas variáveis. Temos como tarefa hoje discutir as questões: (i) quão bom é esse ajuste?;  e (ii) qual o grau de linearidade da relação dessas duas variáveis? Para responder a essas questões usamos dois conceitos estatísticos apresentados na parte final do roteiro de estudos da aula passada: coeficiente de correlação e coeficiente de determinação.

      Vamos praticar o uso desses dois conceitos em um novo problema. Considere a questão que alguns cientistas ambientais encontraram ao perceber um certo declínio no crescimento das florestas em várias partes do mundo. Um aspecto desse declínio é o possível efeito das emissões de usinas de energia elétrica com base em carvão mineral. Nesse caso, os cientistas estão especialmente preocupados com a relação “nível de pH do solo” e “crescimento das árvores”.

      Estudos em várias florestas expostas a esse problema vêm sendo conduzidos, através da análise do crescimento das árvores e do pH dos solos nessas regiões. O interesse é avaliar os impactos sobre o crescimento das árvores conforme o solo se torna mais ácido. Índices de redução do crescimento são construídos para certos parâmetros florestais, onde altos valores expressam altos declínios de crescimento.

      Quanto maior o pH do solo, mais ácido é o solo. Vinte e três talhões próximos a usinas que utilizam o carvão mineral foram selecionadas em um determinado estudo. O índice de redução do crescimento e o correspondente pH médio do solo observados nesses estudos foram plotados no seguinte gráfico:



      Exercício em grupo

      Trabalhando em grupo, faça o download da planilha com os dados usados para gerar o gráfico acima clicando AQUI, e complete os cálculos necessários para a obtenção dos coeficientes do modelo de regressão linear, dos valores da tabela de análise de variância, e os valores dos coeficientes de correlação e de determinação.

      Concluam a tarefa trabalhando em grupo, mas não se esqueça que a submissão das respostas é individual e que apenas receberão presença nesta aula aqueles que entregarem o ED. Copie o intervalo de células A1..N32 da planilha para um documento Word, acrescente os seus comentários e salve no formato PDF.

      Nomeie o documento PDF da seguinte forma: ED10_<NoUSP>.pdf (use o seu número USP para identificar a sua tarefa). Faça o upload desse PDF usando o link desta tarefa.

    • O quadro de análise de variância (ANOVA)

      No final de cada exercício de regressão linear, calculamos somas de quadrados. Essas somas de quadrados foram usadas para compor um quadro de análise de variância (ANOVA). Quadros de análise de variância são frequentemente usados para determinar se médias de três ou mais grupos são diferentes. A ANOVA usa testes F para testar estatisticamente a igualdade entre essas médias. Os testes-F recebem esse nome em homenagem a um dos "pais da Estatística", Ronald Fisher. A estatística F é simplesmente uma razão de duas variâncias. As variâncias, como medidas de dispersão, medem o grau de dispersão de dados agrupados com relação à média de cada grupo. Valores maiores representam maior dispersão. As estatísticas F são baseadas na razão entre quadrados médios, que por sua vez são estimativas das variâncias dos respectivos grupos. Os testes F são usados nas análises de regressão linear e nos estudos de diferenças entre grupos. Assim sendo é possível usar testes F para avaliar a significância global de um modelo de regressão, comparar os ajustes de diferentes modelos, testar termos de regressão específicos e testar diferenças entre médias.

      Vamos entender melhor isso, assistindo a uma vídeo-aula preparada pelo Diego Pujoni, um entusiasta da Análise de Dados e da Estatística que se apresenta como "... formado em biologia e estatística e completamente apaixonado por análise de dados e ensino de matemática e de estatística. Minha missão é reconstruir seu senso numérico, criando as bases fundamentais para que você desenvolva um pensamento estatístico de forma intuitiva e prazerosa, permitindo viver uma experiência que vai transformar seu modo de fazer inferências a partir de dados." No vídeo, o Diego apresenta de forma bem didática a utilidade dos quadros de análise de variância (ANOVA) e por que são usados tanto na regressão linear como em análises de diferenças entre grupos. Conheça primeiro o autor, e depois assista à explicação do porque quadros de ANOVA são úteis tanto nas análises de diferenças entre grupos como nas análises de regressão.

      Diego Pujoni,
      um entusiasta
      da análise de dados
      e da estatística,
      se apresenta
      Quadro de
      análise de variância
      na análise de regressão e
      nos testes de diferenças
      entre grupos

      Faça o download da planilha clicando AQUI, desenvolva uma análise que estude a relação entre longevidade, IDH e PIB de 182 países. Obtenha (i) a tabela de análise de variância, e os valores dos coeficientes (ii) de correlação e de (iii) determinação. Discuta as suas dúvidas com os demais colegas. Concluam a tarefa trabalhando em grupo, mas não se esqueça que a submissão das respostas é individual e que apenas receberão presença nesta aula aqueles que entregarem este estudo dirigido.
      Ao entregar o seu ED, nomeie o arquivo PDF usando o seguinte padrão: ED11_<NoUSP>.pdf (use o seu número USP para identificar a sua tarefa). Faça o upload desse PDF usando o link desta tarefa.


    • Sugestões de novos estudos

      Aqueles que quiserem explorar outras fontes de dados e buscar novas relações passíveis de análise segundo os princípios da regressão linear simples, sugere-se:

      Tema 1: Mudanças Climáticas

      Painel Intergovernamental sobre Mudanças Climáticas (IPCC)

      A principal atividade do IPCC é fornecer relatórios de avaliação do estado do conhecimento sobre mudanças climáticas. O último relatório finalizado em novembro de 2014 concluiu a quinta avaliação.

      O IPCC trabalha atualmente no sexto ciclo de avaliações. Durante este ciclo, o painel produzirá três relatórios especiais (Bases da Ciência Física; Impactos, Adaptação e Vulnerabilidade; Mitigação das Mudanças Climáticas), um relatório metodológico sobre inventários nacionais de gases de efeito estufa e o sexto relatório de avaliação (AR6).

      O relatório síntese do AR6 será concluído em 2022, em tempo para a primeira reunião mundial da Convenção Marco das Nações Unidas para as Mudanças Climáticas (UNFCCC - United Nations Framework Convention on Climate Change) que avaliará a implementação do Acordo de Paris e o progresso coletivo quanto às metas (manter o aumento do aquecimento abaixo dos 2 °C, enquanto se promovem esforços para limitar esse aumento em 1.5 °C).

      O Centro de distribuição de dados do IPCC (DCC)

      O DCC disponibiliza dados climáticos, sócio-econômicos e ambientais, tanto para cenários passados como para cenários futuros. Orientações técnicas sobre a seleção e uso de diferentes tipos de dados e cenários em atividades de pesquisa e avaliação são também disponibilizadas. O DCC é destinado a pesquisadores das mudanças climáticas, educadores, organizações governamentais e não-governamentais e público em geral.

      Variáveis climáticas

      O Centro de Distribuição de Dados do IPCC permite acesso a dados observados sobre clima (p.ex., distribuição espacial de temperaturas e precipitações em escala global), composição atmosférica, informação sócio-econômica (p.ex., população por país e renda) e impactos das mudanças climáticas. Dados usados no quarto relatório de avaliação (AR4): acesse a planilha Excel com dados dos cenários climáticos e clique em "Climate System Scenario Tables (... as Excel workbook)".

      Variáveis sócio econômicas

      Uma avaliação de impacto das mudanças climáticas exige o estabelecimento de uma referência (uma linha base ou "baseline") contra a qual as mudanças são medidas. Dados de referência são necessários para definir variáveis climáticas relevantes e também para informações não climáticas (por exemplo, concentração de dióxido de carbono, características edáficas, população, níveis de renda etc.). Idealmente, esses conjuntos de dados deveriam se referir para um certo período (1961-90, p.ex.) ou para um certo ano (1990, p. ex.). Nesta página web, você encontra conjuntos de dados por país e indicadores por região para variáveis socioeconômicas e de recursos com início nos anos 90. Os dados foram organizados em nove principais regiões: Africa, Australásia, Europa, América Latina, Oriente Médio e Ásia Árida, América do Norte, Pequenas Ilhas-Estado, Ásia Temperada, e Ásia Tropical.  Linha base sócio-econômica (socio-economic baseline): acesse as tabelas Excel e clique em "Data tables in Excel-format".

      Cenários

      O IPCC publicou em 2000 um conjunto de cenários para uso no Terceiro Relatório de Avaliação (Special Report on Emissions Scenarios - SRES) e nos relatórios subsequentes. Os cenários SRES foram construídos para estabelecer tendências ambientais futuras com atenção especial à produção de gases de efeito estufa. A seguinte terminologia foi usada:

      • Storyline (linha narrativa): descrição narrativa do cenário (ou família de cenários), destacando as principais características e dinâmicas, e as relações entre as forças motrizes chave (key driving forces).
      • Scenario (cenário): projeção de um potencial futuro, baseado numa storyline com lógica clara e quantificável.
      • Scenario family (família de cenários): um ou mais cenários que têm a mesma storyline demográfica, sócio-política, econômica e tecnológica.

      O SRES definiu quatro narrativas: A1, A2, B1 e B2 (veja a Figura 1 da página web sobre cenários de emissão SRES) que descrevem a relação entre as forças motrizes geradoras de gases de efeito estufa e sua evolução durante o século 21para extensas regiões do planeta. Cada storyline representa diferentes desenvolvimentos demográficos, sociais, econômicos, tecnológicos,e ambientais que divergem de forma irreversível e crescente. Veja as expectativas para cada cenário em cenários de emissão SRES e clique em "SRES Final Data Tables in HTML-format and Excel-format

      Tema 2: Estatísticas Brasileiras

      Banco de Dados SIDRA

      O Sistema IBGE de Recuperação Automática (SIDRA) do IBGE permite a consulta aos dados armazenados no Banco de Tabelas Estatísticas. O objetivo do Banco de Tabelas Estatísticas é armazenar tabelas contendo os dados agregados (dados que não identificam o informante) das pesquisas que o IBGE realiza. Um dado agregado pode ser obtido, por exemplo, através do somatório dos valores de quesitos contidos em um questionário respondido pelos informantes da pesquisa (quanto produziu de determinado produto agrícola, por exemplo), e está associado às unidades de um nível territorial (unidade da federação, município etc), a um período de tempo e, muitas vezes, a um conjunto de classificações que o qualificam (tipo de produto, condição do produtor etc). Pode ser obtido também através de cálculos estatísticos, como no caso dos indicadores econômicos. Por exemplo, a tabela 1612 possui os dados anuais da Produção Agrícola Municipal (área plantada, colhida, quantidade, rendimento e valor da produção), classificados pelo tipo de produto. Está disponível para as unidades de diversos níveis territoriais (Brasil, Grande Região, Unidade da Federação, Município etc), desde 1990.

      Acesse a página de tabelas de produção agrícola municipal, e na aba "Tabelas" clique em "Área plantada, área colhida, quantidade produzida, rendimento médio e valor da produção das lavouras temporárias". Em seguida, refine a sua pesquisa, montando a tabela de sua preferência.

      Tema 3: Cidades e Estados Brasileiros

      Banco CIDADES@ de dados do IBGE

      Esta é uma fonte bastante completa de informações sobre cidades e estados brasileiros disponibilizada pelo IBGE.  Escolha uma cidade ou estado na página de consulta do sistema CIDADES@, veja que existem dados que você certamente não imaginava encontrar, podendo inclusive fazer comparações com outras cidades ou estados.

      Tema 4: Importações e Exportações Brasileiras

      Banco ALICEWEB sobre comércio exterior Brasileiro

      O Sistema de Análise das Informações de Comércio Exterior (Alice Web) divulga as estatísticas brasileiras de exportações e importações. Qualquer um pode se cadastrar e fazer consultas por item da pauta de produtos e serviços codificados no sistema harmonizado (SH) de identificação. O SH é a base legal para a Nomenclatura Comum do Mercosul (NCM), adotada desde 1995 pelos países membros do Mercosul para estabelecer um padrão de classificação das mercadorias no comércio internacional. Consulte a Tabela de Código NCM pelo nome, classificação ou descrição do produto para facilitar as suas consultas no AliceWeb.

      Mais referências para enriquecer a sua formação:

      Links para iniciativas inspiradoras: