Depois de aprendermos nas primeiras aulas a construir tabelas de frequências e histogramas, revisamos na aula passada a as medidas de tendência central, de variabilidade e de concentração. As medidas de tendência central nos permitem fazer inferências sobre o valor mais provável de uma variável. As de variabilidade mostram como os nossos dados variam em torno do valor mais provável.
Objetivo desta Aula
Algumas distribuições de frequências parecem seguir um certo padrão. Por exemplo, se jogarmos um dado não viciado muitas vezes, veremos que os números 1, 2, 3, 4, 5 ou 6 ocorrem praticamente com a mesma frequência (o histograma das frequências teria seis barras de mesma altura).
Se contarmos o número de grãos de uma certa variedade de arroz crú (ou qualquer outro cereal) em porções de mesmo peso (digamos 10 gramas) é de se esperar que a quantidade seja quase a mesma, mas valores maiores ou menores podem aparecer com menor frequência (é provável que o histograma tenha um formato triangular, com a barra mais alta correspondendo ao valor mais frequente).
Também podemos imaginar que folhas maduras de uma determinada árvore adulta tenham diferentes pesos, com a frequência de um determinado intervalo de pesos (aquele intervalo que inclui a média) sendo o mais frequente. Nesse caso, podemos até imaginar que o perfil formado pelas barras de frequência por classe de peso têm a silhueta de um sino.
Pois bem, nesta aula veremos que algumas dessas distribuições podem ser definidas matematicamente. Estudaremos as mais comuns, tanto para variáveis discretas (como no caso dos dados e do número de grãos) como para variáveis contínuas (como no caso do peso das folhas).
Importante
Clique AQUI para fazer o download da planilha Excel que será usada durante a dinâmica em sala de aula.
Parte 1
Introdução à distribuição de probabilidades - variáveis discretas
Ao desenvolvermos a “caixa de ferramentas” do gestor ambiental, começamos pela busca de métodos para a análise exploratória de dados.
Vimos que tabelas e histogramas de frequência revelam importantes aspectos de um conjunto de dados. As tabelas ou histogramas de frequência expressam a distribuição de uma determinada variável ou atributos de uma população.
Assim, para uma série histórica de dados climatológicos da cidade de Piracicaba, vimos como os dias se apresentaram distribuídos entre classes de velocidade máxima de ventos, de temperatura, de umidade relativa e de precipitação.
Agora, para evoluirmos na análise exploratória de dados, temos que nos aprofundar no conceito de distribuição.
Objetivo desta aula
Já que assimilamos o sentido de frequência de ocorrências (representadas através de tabelas e histogramas), podemos aplica-lo a valores de variáveis estocásticas (ou seja, variáveis que apresentam comportamento aleatório).
Quando o número de observações é suficientemente grande, podemos usar essas frequências para inferirmos sobre o tipo de distribuição de probabilidades que a variável apresenta.
Nesta aula iremos conhecer e aplicar o conceito de distribuição de probabilidades.
Definindo distribuição de probabilidades
Em estatística, uma distribuição de probabilidade descreve a chance de uma determinada variável assumir um determinado valor ao longo de um espaço de valores. A distribuição de probabilidade é uma função, com os valores da variável formando o conjunto domínioe as probabilidades da variável para cada valor do domínio formando o conjunto imagem. O conjunto imagem de valores dessa função se restringe ao intervalo entre 0 e 1.
Distribuições para variáveis discretas e contínuas
Distribuições de probabilidade podem ser expressas para domínios com valores
discretos (variáveis qualitativas, ordinais ou nominais). Exemplo: jogo de dados (domínio é formado pelo conjunto finito de valores {1,2,3,4,5,6} e a imagem é a probabilidade de sair um desses valores)
ou contínuos (variáveis podem assumir qualquer valor dentro de um intervalo)
Exemplo: altura de pessoa (domínio é o infinito conjunto de valores num intervalo razoável de alturas, e imagem é a probabilidade de ocorrer um desses valores)
Definindo função densidade de probabilidade (fdp)
Para cada variável aleatória discreta ou contínua x corresponde uma função densidade de probabilidade (fdp) que lhe atribui uma medida de probabilidade.
A probabilidade de acontecer todo o espaço possível de valores é 1 e a função cumulativa de probabilidades (fcp) P{x ≤ X} pode ser definida como:
\(P(X) = \sum_{x=a}^{X} p(x)\) se discreta,
\(F(X) = \int_{a}^{X} f(x) dx\) se contínua.
Distribuição de probabilidades - variáveis discretas
A probabilidade da variável aleatória X assumir um certo valor x é P(X=x). A soma de todas as possibilidades previstas para x tem valor 1 (100%). As funções de distribuição de probabilidade para variáveis discretas com aplicações interessantes na área de gestão são: Binomial, Poisson e Exponencial Negativa.
Distribuição Binomial
Propriedades:
As observações são obtidas em n ensaios (ocorrências) idênticos
Em cada ensaio observa-se apenas um dentre dois possíveis valores (sucesso / falha)
A probabilidade de sucesso em cada ensaio é p, e p permanece o mesmo entre ensaios
Os ensaios são independentes, ou seja, o resultado de um ensaio não afeta nenhum outro ensaio
A variável randômica (ou estocástica) x é o número de sucessos observados em n ensaios
Exemplos de distribuição Binomial:
Muitas ‘populações’ de 0s e 1s são de interesse para engenheiros, cientistas e empresários:
A resposta à pergunta “Você é a favor do desenvolvimento da energia nuclear, sim ou não?”
Experimentação para determinar o efeito de uma nova droga em cobaias
Processos de monitoramento da qualidade, para determinar a fração da produção com ou sem defeitos
Função densidade de probabilidade:
Um processo produz lotes com n itens. A fração p com itens defeituosos por lote é estimada a partir de dados históricos. A questão é determinar a função densidade de probabilidade (fdp) do número de defeitos por lote. Quantas combinações diferentes são possíveis ao considerar a existência de x defeitos por lote de n itens?
\(\dbinom{n}{x} = \frac {n!}{x!(n-x)!}\)
A probabilidade de obter cada uma dessas combinações é px (1-p)n-x. Pela lei da adição de probabilidades, deduz-se que:
\(P(x=k) = \dbinom{n}{k} p^k (1-p)^{n-k}\) para k = 1, 2, ..., n
Essa é a distribuição binomial com parâmetros n e p. A média e variância são: E{x} = n p; e var {x} = n p (1-p)
Distribuição Poisson
Sugerida em 1837 por S. D. Poisson, esta distribuição tem as seguintes propriedades:
Os eventos acontecem um de cada vez, ou seja, dois ou mais eventos não acontecem precisamente no mesmo momento e local (ou espaço)
A ocorrência de um evento em um certo tempo, região ou espaço é independente da ocorrência do evento em uma sobreposição desse período, região ou espaço
O número esperado de eventos em um período ou região λ é o mesmo que aquele esperado para qualquer outro período ou região
Exemplos de distribuição Poisson
Esta é uma distribuição que caracteriza bem processos que formam filas, onde o comprimento da fila depende do número de chegadas
em um balcão de atendimento (bancos, serviços públicos, posto de saúde etc.)
em um caixa de pedágio ou estacionamento
em um posto de inspeção
Função densidade de probabilidade
Clientes chegam de forma totalmente ao acaso (randomicamente), ou seja, é impossível prever quando alguém chegará. A fdp que descreve o número desse tipo de evento (chegadas) durante um período de tempo segue a distribuição Poisson. Seja x o número de eventos (p.ex.: chegadas) num determinado período de tempo (p.ex.: minuto ou hora), a fdp Poisson será definida da seguinte forma:
sendo a média e a variância definidas da seguinte forma:
E{x} = λ
var {x} = λ
Intuitivamente, E{x} = λ deve representar o número médio de eventos que ocorrem por unidade de tempo. Essencialmente, o parâmetro λ é definido como uma taxa (número por unidade de tempo) à qual o evento ocorre. Esta distribuição é fundamental para a teoria de filas.
Distribuição Exponencial Negativa
Se o número de chegadas a um centro de serviços durante um período específico ocorre de acordo com a distribuição Poisson, então, automaticamente, a distribuição dos intervalos entre chegadas sucessivas segue uma distribuição exponencial negativa (ou, simplesmente, exponencial). Especificamente, se λ é a taxa à qual o evento com distribuição Poisson ocorre, então a distribuição do tempo, x, entre chegadas sucessivas é dado por:
\(f(x) = \lambda e^{-\lambda x}, x > 0\)
A média e variância são:
\(E(x) = \frac {1}{\lambda}\)
\(var(x) = \frac {1}{\lambda ^{2} }\)
A média E{x} é consistente com a definição de λ. Se a taxa à qual o evento ocorre, então 1/λ é o intervalo médio entre eventos sucessivos.
Clique aqui para download de uma versão PDF destes apontamentos.
Parte 2
Introdução à distribuição de probabilidades - variáveis contínuas
Distribuições para intervalos de x limitados a valores entre A e B
Distribuição Uniforme
Distribuição Beta
para intervalos infinitos
Cauchy
Weibull
Pareto
Logística
Log-normal
Normal
e para intervalos semi-infinitos
Distribuição Gama
Chi-quadrado (caso especial da Gama)
Exponencial (caso especial da Weibull)
A Distribuição Normal
A distribuição normal caracteriza muitos fenômenos aleatórios comuns. A função densidade de probabilidade (fdp), ou densidade de uma variável aleatória contínua, é uma função que descreve a probabilidade relativa de uma variável aleatória assumir um certo valor. A fdp da distribuição normal pode ser definida graficamente e matematicamente da seguinte forma:
onde,
\(-\infty < x > \infty\)
\(E(x)=\mu\)
\(var(x)=\sigma^{2}\)
A notação N(μ, σ) é geralmente utilizada para representar uma distribuição normal com média μ e desvio padrão σ. A importância da distribuição normal se dá também pelo fato da média das amostras tiradas de quaisquer distribuições seguirem sempre distribuição normal. Observe as seguintes características da fdp normal:
Clique aqui para download de uma versão PDF destes apontamentos e trabalhe no Quiz 12 (Q12).
Utilize a função DISTNORM(x,média,desv_padrão,cumulativo) para construir curvas que representem a função distribuição normal de probabilidade e normal de probabilidade cumulativa.
Estudo suplementar 3 (não precisa ser entregue)
Considere o subconjunto de dados extraídos da planilha de dados climáticos re-organizado nas seguintes planilhas.
Em um gráfico de barras represente a distribuição de dias por classe de velocidade média diária de vento (use classes de 0,5 m/s). Em outro gráfico de barras represente a distribuição de dias por classe de temperatura média diária (use classes de 2 oC).
As distribuições resultantes são simétricas? Que probabilidade você atribuiria à chance de termos um dia com ventos entre 0,5 e 1,0 m/s? A função Normal representaria bem essa distribuição de probabilidade? Que probabilidade você atribuiria à chance de termos um dia com temperatura entre 22,6 e 24,6 oC? A função Normal representaria bem essa distribuição de probabilidade?
Todas as velocidades médias diárias e temperaturas médias diárias observadas nessa planilha serão consideradas elementos de duas populações completas. Use “Análise de Dados – Estatística Descritiva” do Excel para obter as estatísticas descritivas básicas dessa população.
Nas abas da planilha, amostras de 100 dias e de 10 dias foram extraídas dessas populações, totalizando 50 amostras para cada caso. Em cada amostra os dias foram escolhidos totalmente ao acaso. Calcule a Média, Variância e Desvio Padrão para cada amostra.
Construa agora duas tabelas de frequência para as médias coletadas, uma tabela para cada tamanho de amostra. Veja se a regra empírica se observa nos resultados. Veja se o Teorema Central do Limite (esse teorema afirma que “quando o tamanho da amostra aumenta, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal”, ou seja, ao aumentar o tamanho da amostra, a distribuição amostral da média aproxima-se cada vez mais de uma distribuição normal).