Discussão da prova: solução de dúvidas e importância prática dos temas tratados.
Síntese do bloco de aulas anterior à prova: As aulas anteriores nos permitiram avançar na exploração e análise de dados, usando frequentemente a planilha Excel para esse fim. Aprendemos a usar o recurso de tabelas dinâmicas, construímos tabelas de frequência e histogramas, conhecemos distribuições de probabilidades (frequências) que seguem certos padrões e estudamos as medidas de posição, dispersão e concentração. Essas ferramentas são úteis muito úteis na fase inicial de exploração de dados.
Avançaremos hoje para situações em que a exploração de dados envolve duas ou mais variáveis que parecem apresentar uma certa correlação. Para isso iremos resgatar nesta aula alguns dos princípios da Regressão Linear Simples.
Regressão Linear Simples
A regressão linear simples avalia se a relação entre duas medidas é linear. Uma relação entre duas medidas Y e X é linear quando
o aumento unitário no valor da
medida que explica (X)
provoca uma variação proporcional e constante na
medida explicada (Y).
Primeiro, vejamos graficamente como a Regressão Linear Simples ajusta uma reta passando pelos pontos que representam os pares de valores (variável explicada Y, variável que explica X)
Por exemplo, é linear a relação entre o peso de um caminhão de tijolos e o número de tijolos nesse caminhão. Nesse caso, o peso do caminhão carregado pode ser definido como
PesoDoCaminhãoCarregado = PesoDoCaminhãoVazio + kNúmeroDeTijolos + erro.
É de se esperar uma relação linear entre a variável dependente PesoDoCaminhãoCarregado e a variável explicativa (ou independente) NumeroDeTijolos. Repare que nesse caso, k é simplesmente o peso médio de cada tijolo. Quanto mais uniforme for o peso de cada tijolo, mais precisa será a relação, mais o valor do erro se aproximará de zero, e mais precisa será a nossa estimativa para o peso do caminhão carregado. Basta saber quantos tijolos foram carregados no caminhão.
Nota-se o uso de um modelo (uma abstração) linear (Y = a + b X) para expressar a relação entre a variável dependente PesoDoCaminhãoCarregado (Y) e a variável independente NúmeroDeTijolos (X), desde que seja conhecido o peso k de cada tijolo (b) e o PesoDoCaminhãoVazio (a).
Um roteiro para análises de regressão linear simples
Clique AQUI para download do roteiro, AQUIpara download da planilha de cálculos e acompanhe as explicações em sala de aula)