06Out
Agenda
- Síntese do bloco de aulas anterior à prova: As aulas anteriores nos permitiram avançar na exploração e análise de dados, usando frequentemente a planilha Excel para esse fim. Aprendemos a usar o recurso de tabelas dinâmicas, construímos tabelas de frequência e histogramas, conhecemos distribuições de probabilidades (frequências) que seguem certos padrões e estudamos as medidas de posição, dispersão e concentração. Essas ferramentas são úteis muito úteis na fase inicial de exploração de dados. Agora vamos avançar para situações em que a exploração de dados envolve duas ou mais variáveis que parecem apresentar uma certa correlação. Para isso iremos resgatar nesta aula os princípios da Regressão Linear Simples.
- Objetivos desta aula: muitas vezes duas variáveis têm comportamento sincronizado. Por exemplo, o peso de um caminhão tanque e os litros de combustível sendo transportados pelo caminhão estão positivamente correlacionados. Às vezes o comportamento e sincronizado, mas em direções opostas, como no caso preço de um determinado produto e quantidade consumida. São muitos os casos em que, por relações de causa e efeito nem sempre aparentes ou conhecidas, duas variáveis se mostram correlacionadas. Por exemplo, taxa de letalidade de um vírus e idade do paciente. Para todos esses casos é possível usar a regressão linear simples para buscar evidências de que a relação realmente existe, e de medir a significância estatística dessa regressão. Nesta aula vamos revisar os princípios da regressão linear simples, que serve para casos em que duas variáveis parecem se correlacionar linearmente. Em termos matemáticos, isso significa dizer que o valor de uma variável Y varia sempre da mesma forma conforme variamos o valor de X. Mais formalmente, e de forma genérica, podemos dizer para esses casos que Y = a + b X + erro; onde a é observado quando X é zero; b é a variação em Y quando aumentamos X em uma unidade; e erro corresponde àquela parte da relação que não é explicada pela variação em X.
- Dinâmica: separados em dois grupos, usem os conhecimentos adquiridos e as ferramentas do Excel para propor a análise de um problema observado por um gestor de duas estações de tratamento de esgotos.
Regressão Linear Simples
A regressão linear simples avalia se a relação entre duas medidas é linear. Uma relação entre duas medidas é linear quando
o aumento unitário no valor da
medida que explica
provoca uma variação proporcional e constante na
medida explicada.Por exemplo, é linear a relação entre o peso de um caminhão de tijolos e o número de tijolos nesse caminhão. Nesse caso, o peso do caminhão carregado pode ser definido como
PesoDoCaminhãoCarregado = PesoDoCaminhãoVazio + k NúmeroDeTijolos + erro.É de se esperar uma relação linear entre a variável dependente PesoDoCaminhãoCarregado e a variável explicativa (ou independente) NumeroDeTijolos. Repare que nesse caso, k é simplesmente o peso médio de cada tijolo. Quanto mais uniforme for o peso de cada tijolo, mais precisa será a relação, mais o valor do erro se aproximará de zero, e mais precisa será a nossa estimativa para o peso do caminhão carregado. Basta saber quantos tijolos foram carregados no caminhão.
Por exemplo, é linear a relação entre o peso de um caminhão de tijolos e o número de tijolos nesse caminhão. Nesse caso, o peso do caminhão carregado pode ser definido como
PesoDoCaminhãoCarregado = PesoDoCaminhãoVazio + k NúmeroDeTijolos + erro.Nota-se o uso de um modelo (uma abstração) linear (Y = a + b X) para expressar a relação entre a variável dependente PesoDoCaminhãoCarregado (Y) e a variável independente NúmeroDeTijolos (X), desde que seja conhecido o peso k de cada tijolo (b) e o PesoDoCaminhãoVazio (a).
Um roteiro para análises de regressão linear simples
Clique AQUI para download do roteiro, AQUI para download da planilha de cálculos e acompanhe as explicações em sala de aula)
Estudo Dirigido
Sala 1 Sala 2 Escolha uma das duas salas, apresente as suas dúvidas para as demais pessoas da sala e discutam como os dados disponibilizados por duas Estações de Tratamento de Esgotos podem ser analisados com o apoio da Análise de Regressão Linear Simples. Concentrem-se nessa primeira etapa na hipótese que se faz ao adotar essa estratégia de análise. Depois de debatido o problema e de discutidas as formas de desenvolvimento da análise, cada um terá que submeter os seus resultados individualmente.
Análise do tratamento de água em duas ETE's (Estações de Tratamento de Esgoto)
Nas duas estações que estaremos analisando, a água passa por seis etapas regulares de tratamento:- Captação, coleta inicial da água e passagem por um sistema de grades para retenção de detritos maiores.
- Coagulação, adição de cal hidratada (hidróxido de cálcio) e sulfato de alumínio, para agregar as partículas de sujeira (coagulação).
- Floculação, promoção da união das partículas de sujeira (flocos) em solução alcalina. Nessa etapa, o sulfato de alumínio reage com íons hidroxila para formação de polieletrólitos de alumínio (união eletrostática com partículas de argila formando elementos com microestrutura porosa - flóculos).
- Decantação, a água não é mais agitada e os flocos vão se depositando no fundo, separando-se da água. O material decantado, denominado lodo, é transferido para tanques de depuração e eventual transformação em adubo em biodigestores.
- Filtração. A água já decantada passa por um filtro de cascalho/areia/antracito (carvão mineral) para completa retenção dos flocos que não foram decantados na fase anterior e de alguns microrganismos.
- Cloração. Etapa final do tratamento à base de compostos clorados para eliminação de microrganismos patogênicos e como oxidante de compostos orgânicos e inorgânicos que ainda possam estar presentes.
Médias dos apontamentos feitos pelo gestor dessas ETE's nos últimos 10 anos apresentadas no gráfico abaixo mostram que existe uma relação entre as quantidades consumidas de hidróxido de cálcio (H, em tons) e a precipitação média, na região de coleta do esgoto (P, em mm), nos 45 dias anteriores ao monitoramento químico do processo de coagulação.
Os valores usados para gerar o gráfico estão organizados em uma planilha Excel (clique AQUI para fazer o download dessa planilha). O gestor suspeita que, devido à diferente configuração dos tanques e equipamentos, o comportamento do tratamento é diferente nas duas estações.
Estude os dados com os seus colegas, busque uma forma de analisar os dados com os conhecimentos adquiridos até o momento sobre análise de regressão linear.
Apresente as suas conclusões em um PDF de no máximo duas páginas.