• Aula 5

    Medidas de posição, dispersão e concentração


    • Agenda

      • Síntese: Retomaremos a questão que começamos a analisar sobre a eventual relação do fenômeno El Niño, avançaremos na assimilação de conceitos estatísticos que nos permitem estudar a variabilidade de dados, a possibilidade de fazer inferências básicas sobre medidas de tendência central (Moda, Mediana e Média), medidas de dispersão (desvio padrão, variância, coeficiente de variação, erro padrão e intervalo de confiança), medida de concentração (índice de Gini) e a importância do tipo de distribuição dos dados e o conceito de amostragem.
      • Revisão: Vamos revisar o conceito de frequência, explorando a série histórica de dados hidrológicos de vazão do Rio Piracicaba. Que afirmações você poderia fazer ao estudar o histograma de vazão desses dados?
      • Dinâmica em sala de aula: Algumas distribuições de frequências parecem seguir um certo padrão. Por exemplo, se jogarmos um dado não viciado muitas vezes, veremos que os números 1, 2, 3, 4, 5 ou 6 ocorrem praticamente com a mesma frequência (o histograma das frequências teria seis barras de mesma altura). Se contarmos o número de grãos de uma certa variedade de arroz crú (ou qualquer outro cereal) em porções de mesmo peso (digamos 10 gramas) é de se esperar que a quantidade seja quase a mesma, mas valores maiores ou menores podem aparecer com menor frequência (é provável que o histograma tenha um formato triangular, com a barra mais alta correspondendo ao valor mais frequente). Também podemos imaginar que folhas maduras de uma determinada árvore adulta tenham diferentes pesos, com a frequência de um determinado intervalo de pesos (aquele intervalo que inclui a média) sendo o mais frequente. Nesse caso, podemos até imaginar que o perfil formado pelas barras de frequência por classe de peso têm a silhueta de um sino (distribuição Normal). Pois bem, nesta aula, estudaremos com mais detalhes algumas distribuições bem conhecidas, e matematicamente bem definidas, tanto para variáveis discretas (como no caso dos dados e do número de grãos) como para variáveis contínuas (como no caso do peso das folhas).  Usaremos a planilha "Gera_Distribuicoes.xlsx" para apoiar esses estudos.


    • Medidas que expressam a natureza de certas variáveis aleatórias

      A análise exploratória da dados envolve a exploração dos valores observados de uma variável ou parâmetro de uma população.  Na série de dados climáticos, temperatura, precipitação etc. são parâmetros extraídos de uma população de possíveis intervalos de tempo (dias, por exemplo) num determinado local (estação meteorológica da ESALQ). Vimos o caráter estocástico (aleatório) desses parâmetros. Ou seja, vimos que a ocorrência de um certo valor para um certo parâmetro não é determinística (i.e., não pode ser determinada com exatidão). Esses valores simplesmente variam, e é impossível prever o seu valor exato!

      Por variarem, nos referimos a esses parâmetros como aleatórios ou estocásticos. Conhecer todos os valores possíveis de um parâmetro que caracteriza uma população exigiria conhecer a população inteira.  Isso é geralmente impossível (quando infinita, por exemplo) ou muito difícil de ser obtida (como o peso de todos os habitantes vivos do planeta num determinado instante). Todavia, medições amostrais podem ser realizadas para que possamos descrever o comportamento desses parâmetros da população.

      A partir de agora faremos uma distinção entre parâmetros, como medidas descritivas de uma população, e estatísticas, que são medições descritivas extraídas de uma ou mais amostras. Essa distinção é necessária para que possamos lidar com os casos em que não é possível calcular diretamente o valor dos parâmetros de uma população, mas podemos calcular as correspondentes estatísticas para amostras retiradas dessa população e, a partir dessas estatísticas, fazer inferências sobre os respectivos parâmetros da população.

      Primeiramente, iremos recorrer a medidas de posição (ou tendência central) e de variabilidade. As medidas de tendência central exploram como se concentram as distribuições de frequências dos dados. As de variabilidade descrevem como os dados variam em torno do centro da distribuição.


      Medidas de tendência central


      Moda

      • é o valor mais frequente ou provável em um conjunto de observações (podem existir uma ou mais modas no conjunto de observações)
      • não é afetada pela existência de observações extremas (valores muito acima ou abaixo dos mais observados no conjunto de dados)
      • as modas observadas em subgrupos do conjunto completo de observações não mantém relação com a moda do conjunto completo
      • o valor da moda pode variar para diferentes agrupamentos do conjunto de observações
      • pode ser definida tanto para dados quantitativos como qualitativos


      Mediana

      • uma vez ordenadas, é o valor central das observações que permite distribuir 50% das observações acima e as demais 50% abaixo desse valor
      • existe apenas uma mediana para cada conjunto de observações
      • não é afetada pela existência de observações extremas (valores muito acima ou abaixo dos mais observados no conjunto de dados)
      • as medianas observadas em subgrupos do conjunto completo de observações não mantém relação com a mediana desse conjunto completo para diferentes agrupamentos dos dados
      • o seu valor se mantém razoavelmente estável
      • só se aplica para conjuntos de observações quantitativas


      Média

      • é calculada como a média aritmética dos valores em um grupo de observações
      • existe apenas uma média para cada grupo de observações
      • seu valor é afetado pela existência de observações extremas (valores muito acima ou abaixo dos mais observados)
      • as médias de subgrupos do conjunto completo de observações podem ser combinadas para gerar a média do conjunto completo
      • só se aplica para conjuntos de observações quantitativas

      Medidas de dispersão


      Desvio Padrão

      • dá uma idéia do desvio médio absoluto com relação à média de um conjunto de observações (amostra)


      Variância

      • é o quadrado do desvio padrão


      Coeficiente de Variação

      • mede a dispersão relativa amostral, e é resultado de dividir o desvio padrão pela média da amostra [Desvio Padrão/Média * 100]
      • dá uma idéia do desvio médio relativo com relação à média de um conjunto de observações (amostra)


      Nota importante

      Desvio padrão e erro padrão não são a mesma coisa. Vamos entender a diferença.

      O desvio padrão é uma medida de dispersão dos dados dentro de uma amostra com relação à média da amostra. Assim sendo, quanto menor o valor do desvio padrão, mais homogênea é a amostra.

      O erro padrão é uma medida de dispersão da média amostral em relação à média da população. Para obtermos uma estimativa do erro padrão, dividimos o desvio padrão pela raiz quadrada do tamanho amostral.


      Para que serve o erro padrão?

      Através do erro padrão, pode-se estimar um intervalo de confiança para a média populacional a partir da média amostral calculada. Assim sendo, se estabelecermos, por exemplo, um nível de significância de 5%, é possível construir um intervalo de confiança que terá 95% de probabilidade de conter a média real da população.

      Estude o caso ilustrado no quadro abaixo que analisa o volume observado nas embalagens de uma certa marca de suco de laranja.


      Para cálculo do intervalo de confiança, o erro padrão é multiplicado pelo percentil do nível de significância de uma distribuição normal com média 0 e desvio-padrão 1 ("distribuição normal padrão"). No caso de níveis de significância de 5%, esse valor é 1,96.  No exemplo acima, a média do verdadeiro volume das garrafas de suco de laranja está no intervalo entre 467,4 e 532,6 mililitros (500 ± 1,96 * 16,7) com 95% de confiança.


      A diferença entre desvio padrão e erro padrão

      É muito frequente a confusão entre os conceitos de erro padrão e desvio padrão. Apesar de ambos tratarem da variação de uma média, são conceitos bem diferentes entre si.  O desvio padrão é um índice de dispersão da amostra em relação à média da amostra, enquanto o erro padrão é uma medida de dispersão (confiabilidade) da estimativa da real média da população.


      Entendendo intervalos de confiança

      Assumindo que a variável de interesse numa população apresenta distribuição normal, é possível calcular intervalos de confiança para a estimativa da média calculada a partir de uma amostra extraída dessa população. Vamos considerar o caso em que a variável de interesse numa determinada população tem média 0 e desvio padrão 1. Veja graficamente o que acontece para, diferentes valores de significância, quando extraímos amostras de diferentes tamanhos e quando variamos o número de amostras extraídas.

    • Medida de concentração

      A Curva de Lorenz e o Índice de Gini

      Considere p o valor da proporção acumulada da população até certo nível e φ o valor da correspondente proporção acumulada de uma variável dessa população (por exemplo: renda, escolaridade etc.). Os pares de valores (p, φ) para os diversos níveis, definem pontos num sistema de eixos cartesianos ortogonais que se unidos geram a curva de Lorenz ilustrada na figura abaixo:

      Curva de Lorenz

      A curva de Lorenz mostra como a proporção acumulada φ da variável da população varia em função da proporção acumulada (p) da população, com os indivíduos ordenados de acordo com valores crescentes da variável.  A área hachurada α, compreendida entre a curva de Lorenz e a bissetriz no gráfico acima, é denominada área de concentração.

      Se imaginarmos uma perfeita distribuição da variável da população, por exemplo renda, onde todos recebem a mesma quantidade, teremos que cada proporção p da população recebe exatamente a mesma proporção  da variável, ou seja, φ = p. Nesse caso, a curva de Lorenz se reduz à própria bissetriz, que por isso se denomina “linha de perfeita igualdade”, e α = 0.

      Vamos agora imaginar uma distribuição com máxima desigualdade, isto é, numa população com n indivíduos, apenas um deles detém toda a variável medida (por exemplo, renda) e os demais n-1 nada possuem. Nesse caso, é fácil verificar que α se torna igual a 0,5.

      Por definição, o índice de Gini (G) é a razão entre a área de concentração α e o valor 0,5. É possível demonstrar que, para distribuições discretas, essa razão pode ser calculada através da seguinte expressão:

      Gini

      Concentração de terras no Brasil**

      O monitoramento da posse da terra e estudos de concentração fundiária no Brasil vêm sendo feitos há décadas. Por exemplo, dados de 1992 apontavam para um índice de Gini geral no Brasil de aproximadamente 0,85. Estudos regionais posteriores, do início dos anos 2000, confirmavam valores próximos a esse de 1992, mas variável entre regiões.

      Concentração de Terras - Brasil

      Fonte: Ministério do Desenvolvimento Agrário e Instituto Nacional de Colonização e Reforma Agrária.

      Dados mais recentes (2020) e resumidos pelo Imaflora, mostram que a concentração da terra continua alta no Brasil, com índice de Gini igual a 0,73, segundo dados extraídos do Censo Agropecuário do IBGE de 2017. Mais especificamente, em termos absolutos esse levantamento mostrou, por exemplo, que 51.000 propriedades concentravam 47,6% da área agrícola, enquanto pequenos proprietários de até 10 hectares ocupavam apenas 2,3% da terra no Brasil.  O índice de Gini segue variável entre regiões e Estados, sendo mais alto no Mato Grosso, Mato Grosso do Sul, Bahia e na região do Matopiba, onde predomina a produção de commodities em grandes imóveis. É mais baixo nos Estados com maior presença da agricultura familiar e maior diversificação da produção, como Santa Catarina e Espírito Santo.


       

      Concentração de renda no Brasil***

      O índice de Gini para renda da população brasileira foi de 0,518 em 2023 e repetiu o resultado do ano anterior, quando atingiu o menor patamar da série histórica. Esse resultado se refere especificamente à desigualdade de rendimento médio mensal real domiciliar per capita recebido pela população do país. Houve uma tendência de redução da desigualdade entre 2012 e 2015 (de 0,540 para 0,524), mas a partir do ano seguinte, o indicador aumentou até chegar ao maior valor da série histórica, em 2018 (0,545). Nos anos seguintes, oscilou entre estabilidade, queda e aumento até chegar ao menor nível (0,518) em 2022.

      Há diferenças marcantes de distribuição de renda entre as regiões do país. A região Nordeste tem a maior desigualdade seguida de perto pelo Sudeste (0,508), e o Sul apresenta a menor desigualdade (0,454).



      *** Fonte: IBGE, consulta 19/04/2024.

      Para mais detalhes sobre concentração de renda, veja os seguintes vídeos do Prof. Marcelo Neri da FGV

      Mapa da Riqueza
      Mapa da Pobreza

    • Exercício em grupo

      Trabalhem em grupo e discutam a solução com os demais integrantes do grupo. Lembrem-se que, apesar de resolvido em grupo, a submissão das respostas é individual. Depois de resolver o ED08, leia o artigo disponível na Fundação Getúlio Vargas sobre a desigualdade de renda do trabalho observada no Brasil (medida segundo o índice de Gini em 2020) e, juntamente com os colegas do seu grupo, resuma numa única frase qual a principal informação extraída desse artigo.


    • Referências Complementares


      Apontamentos da Profa. Clarice Demétrio usados em disciplina de introdução à estatística


      Acredito que este material suplementar, preparado com muito esmero pela Profa. Clarice e por monitores de um curso de introdução a estatística do Departamento de Matemática e Estatística da ESALQ, pode ser muito util. Escolham o tema e leiam os respectivos apontamentos. Estou certo de que vão gostar.

    • Distribuição de probabilidades para variáveis discretas

      A probabilidade da variável aleatória X assumir um certo valor x é P(X=x). A soma de todas as possibilidades previstas para x tem valor 1 (100%). As funções de distribuição de probabilidade para variáveis discretas com aplicações interessantes na área de gestão são: Binomial, Poisson e Exponencial Negativa.

      Distribuição Binomial

      Propriedades:

      • As observações são obtidas em n ensaios (ocorrências) idênticos
      • Em cada ensaio observa-se apenas um dentre dois possíveis valores (sucesso / falha)
      • A probabilidade de sucesso em cada ensaio é p, e p permanece o mesmo entre ensaios
      • Os ensaios são independentes, ou seja, o resultado de um ensaio não afeta nenhum outro ensaio
      • A variável randômica (ou estocástica) x é o número de sucessos observados em n ensaios

      Exemplos de distribuição Binomial:

      Muitas ‘populações’ de 0s e 1s são de interesse para engenheiros, cientistas e empresários:

      • A resposta à pergunta “Você é a favor do desenvolvimento da energia nuclear, sim ou não?”
      • Experimentação para determinar o efeito de uma nova droga em cobaias
      • Processos de monitoramento da qualidade, para determinar a fração da produção com ou sem defeitos

      Função densidade de probabilidade:

      Um processo produz lotes com n itens. A fração p com itens defeituosos por lote é estimada a partir de dados históricos. A questão é determinar a função densidade de probabilidade (fdp) do número de defeitos por lote.  Quantas combinações diferentes são possíveis ao considerar a existência de x defeitos por lote de n itens?

      \(\dbinom{n}{x} = \frac {n!}{x!(n-x)!}\)

      A probabilidade de obter cada uma dessas combinações é px (1-p)n-x. Pela lei da adição de probabilidades, deduz-se que:

      \(P(x=k) = \dbinom{n}{k} p^k (1-p)^{n-k}\) para k = 1, 2, ..., n

      Essa é a distribuição binomial com parâmetros n e p. A média e variância são: E{x} = n p; e var {x} = n p (1-p)


      Distribuição Poisson

      Sugerida em 1837 por S. D. Poisson, esta distribuição tem as seguintes propriedades:

      • Os eventos acontecem um de cada vez, ou seja, dois ou mais eventos não acontecem precisamente no mesmo momento e local (ou espaço)
      • A ocorrência de um evento em um certo tempo, região ou espaço é independente da ocorrência do evento em uma sobreposição desse período, região ou espaço
      • O número esperado de eventos em um período ou região λ é o mesmo que aquele esperado para qualquer outro período ou região

      Exemplos de distribuição Poisson

      Esta é uma distribuição que caracteriza bem processos que formam filas, onde o comprimento da fila depende do número de chegadas

      • em um balcão de atendimento (bancos, serviços públicos, posto de saúde etc.)
      • em um caixa de pedágio ou estacionamento
      • em um posto de inspeção

      Função densidade de probabilidade

      Clientes chegam de forma totalmente ao acaso (randomicamente), ou seja, é impossível prever quando alguém chegará. A fdp que descreve o número desse tipo de evento (chegadas) durante um período de tempo segue a distribuição Poisson. Seja x o número de eventos (p.ex.: chegadas) num determinado período de tempo (p.ex.: minuto ou hora), a fdp Poisson será definida da seguinte forma:

      \( P(x=k)= \frac {\lambda ^k}{k!} e^{-\lambda } \qquad k=1,2,...,n\)

      sendo a média e a variância definidas da seguinte forma:

      E{x} = λ

      var {x} = λ

      Intuitivamente, E{x} = λ deve representar o número médio de eventos que ocorrem por unidade de tempo. Essencialmente, o parâmetro λ é definido como uma taxa (número por unidade de tempo) à qual o evento ocorre. Esta distribuição é fundamental para a teoria de filas.


      Distribuição Exponencial Negativa

      Se o número de chegadas a um centro de serviços durante um período específico ocorre de acordo com a distribuição Poisson, então, automaticamente, a distribuição dos intervalos entre chegadas sucessivas segue uma distribuição exponencial negativa (ou, simplesmente, exponencial). Especificamente, se λ é a taxa à qual o evento com distribuição Poisson ocorre, então a distribuição do tempo, x, entre chegadas sucessivas é dado por:

      \(f(x) = \lambda e^{-\lambda x},  x > 0\)

      A média e variância são:

      \(E(x) = \frac {1}{\lambda}\)

      \(var(x) = \frac {1}{\lambda ^{2} }\)

      A média E{x} é consistente com a definição de λ. Se a taxa à qual o evento ocorre, então 1/λ é o intervalo médio entre eventos sucessivos.


      Clique aqui para download de uma versão PDF destes apontamentos.