• Aula 4

    Tabelas e gráficos de frequência


    • Agenda

      • Síntese: Revisaremos as medidas de tendência central (que nos permitem fazer inferências sobre o valor mais provável de uma variável), de variabilidade (que mostram como os nossos dados variam em torno do valor mais provável) e de concentração (que expressam acúmulo em certas classes). Resgataremos o conceito de distribuição de frequências.
      • Dinâmica em sala de aula: Os dados históricos da base meteorológica da ESALQ organizados em planilha, que temos usado para aprender a usar melhor o Excel, nos permitem extrair informação interessante sobre o clima da cidade de Piracicaba.  A ferramenta "tabela dinâmica" e "gráfico dinâmico", por exemplo, tem sido muito útil para criar tabelas (histogramas) e gráficos de frequência por categorias ou por classes de valores. Assim temos respondido a perguntas interessantes sobre o clima da cidade, analisado tendências, e explorado correlações. Por exemplo, estaria a temperatura média da cidade aumentando ao longo do tempo? Os ventos da cidade são suficientes para a instalação de polos eólicos? Os extremos climáticos têm sido mais frequentes? Continuaremos explorando os recursos de análise do Excel. 


    • O que frequências e probabilidades têm em comum?

      Ao desenvolvermos a “caixa de ferramentas” do gestor ambiental, começamos pela busca de métodos para a análise exploratória de dados. Vimos que tabelas e histogramas de frequência revelam importantes aspectos de um conjunto de dados. As tabelas ou histogramas de frequência expressam a distribuição de uma determinada variável ou atributos de uma população. Assim, para uma série histórica de dados climatológicos da cidade de Piracicaba, vimos como os dias se apresentaram distribuídos entre classes de velocidade máxima de ventos, de temperatura, de umidade relativa e de precipitação.

      Ao explorarmos a frequência dessas variáveis, categóricas ou numéricas, observamos, por exemplo, que era possível inferir sobre o intervalo de possíveis valores (mínimo e máximo), e que essas frequências pareciam expressar um certo padrão em termos de distribuição. Quando a quantidade de observações é suficientemente grande, podemos perceber que os valores da variável explorada refletem frequências distribuídas segundo um certo padrão. Alguns desses padrões são tão comuns e previsíveis, que a estatística criou modelos matemáticos para expressá-los. Esses modelos são conhecidos como funções de distribuição probabilística e descrevem a probabilidade (frequência) com que certos valores ou intervalos de valores podem acontecer. Vamos conhecer melhor essas funções.
          

      Introdução à distribuição de probabilidades

      Já que assimilamos o sentido de frequência de ocorrências (representadas através de tabelas e histogramas), podemos aplica-lo a valores de variáveis estocásticas (ou seja, variáveis que apresentam comportamento aleatório).  Quando o número de observações é suficientemente grande, podemos usar essas frequências para inferirmos sobre o tipo de distribuição de probabilidades que a variável apresenta.

      Em estatística, uma distribuição de probabilidade descreve a chance de uma determinada variável assumir um determinado valor ao longo de um espaço de valores. A distribuição de probabilidade é uma função, com os valores da variável formando o conjunto domínio e as probabilidades da variável para cada valor do domínio formando o conjunto imagem.  O conjunto imagem de valores dessa função se restringe ao intervalo entre 0 e 1. 

      Distribuições de probabilidade podem ser expressas para domínios com valores:

      • discretos (variáveis qualitativas, ordinais ou nominais). Exemplo: jogo de dados (domínio é formado pelo conjunto finito de valores {1,2,3,4,5,6} e a imagem é a probabilidade de sair um desses valores), ou 
      • contínuos (variáveis podem assumir qualquer valor dentro de um intervalo). Exemplo: altura de pessoa (domínio é o infinito conjunto de valores num intervalo razoável de alturas, e imagem é a probabilidade de ocorrer um desses valores)

      Para cada variável aleatória discreta ou contínua x corresponde uma função densidade de probabilidade (fdp) que lhe atribui uma medida de probabilidade. A probabilidade de acontecer todo o espaço possível de valores é 1 e a função cumulativa de probabilidades (fcp) P{x ≤ X} pode ser definida como:

      \(P(X) = \sum_{x=a}^{X} p(x)\) se discreta,

      \(F(X) = \int_{a}^{X} f(x) dx\) se contínua.

    • Distribuição de probabilidades para variáveis contínuas


      Distribuições

      para intervalos de x limitados a valores entre A e B

        • Distribuição Uniforme
        • Distribuição Beta

      para intervalos infinitos

        • Cauchy
        • Weibull
        • Pareto
        • Logística
        • Log-normal
        • Normal

      e para intervalos semi-infinitos

        • Distribuição Gama
        • Chi-quadrado (caso especial da Gama)
        • Exponencial (caso especial da Weibull)

      A Distribuição Normal

      A distribuição normal caracteriza muitos fenômenos aleatórios comuns. A função densidade de probabilidade (fdp), ou densidade de uma variável aleatória contínua, é uma função que descreve a probabilidade relativa de uma variável aleatória assumir um certo valor. A fdp da distribuição normal pode ser definida graficamente e matematicamente da seguinte forma:


       onde,

      \(-\infty < x > \infty\)

      \(E(x)=\mu\)

      \(var(x)=\sigma^{2}\)

      A notação N(μ, σ) é geralmente utilizada para representar uma distribuição normal com média μ e desvio padrão σ. A importância da distribuição normal se dá também pelo fato da média das amostras tiradas de quaisquer distribuições seguirem sempre distribuição normal.  Observe as seguintes características da fdp normal:



      Clique AQUI para download de uma versão PDF destes apontamentos e resolva as questões propostas no Estudo Dirigido 7 (ED07, no canto superior deste bloco).