Durante a fase exploratória de dados, é comum encontrarmos uma relação aparentemente não linear entre duas variáveis. Métodos específicos para o ajuste de relações não lineares existem, mas estão fora do escopo deste curso. Entretanto, em alguns casos, uma simples transformação matemática de uma das variáveis, ou das duas, permite ajustar a não linearidade da relação usando os mesmos métodos de regressão linear que temos usado até agora neste curso. Vejamos o seguinte problema.
Uma empresa que oferece serviços de asfaltamento para prefeituras observa a seguinte relação entre tamanho da equipe e área asfaltada. Essa empresa está no mercado há vários anos e utiliza técnicas convencionais de asfaltamento. Um novo composto fabricado com borracha extraída de pneus reciclados será oferecido a seus clientes. A empresa precisa de estimativas de custo de asfaltamento para esse composto e resolve analisar, com base em experiência prévia, a relação “área asfaltada” x “equipes de trabalho”. Uma análise preliminar e exploratória de 150 ordens de serviço anteriores está disponível para essa análise.
Usaremos a análise estatística dos dados que geraram esse gráfico para tirar algumas conclusões. Continuaremos fazendo as pressuposições básicas já conhecidas:
- A relação entre a variável dependente y e a variável independente x é linear (y = β0 + β1 x + ε) com valor esperado do erro igual a 0, ou seja, E(εi)=0 para todo i.
- Todos os erros têm a mesma variância, ou seja, Var(εi) = σ2 para todo i.
- Os erros são independentes entre si.
- Os erros são normalmente distribuídos, ou seja, εi é normalmente distribuído para todo i.
Ao observarmos o gráfico,vemos que o aumento do tamanho da equipe, apesar do aumento na área asfaltada, não é linear. De fato, a partir de um certo tamanho, o aumento da equipe parece não levar a aumentos de área asfaltada expressivos. A taxa de crescimento da área asfaltada por jornada de trabalho conforme aumentamos a equipe parece ser decrescente.
Nesse tipo de situação, avaliaremos se a transformação das variáveis do problema pode ser recomendada dando os seguintes passos:
- Se a análise exploratória dos dados indica uma relação crescente a taxas decrescentes, e se a variabilidade em torno da estimativa for aproximadamente constante, transforme x usando raiz quadrada, logaritmo ou inverso.
- Se a análise indicar uma relação crescente a taxas crescentes, e se a variabilidade em torno da estimativa for aproximadamente constante, considere x e x2 simultaneamente como variáveis explicativas. Como este método envolve duas variáveis, utilize métodos de regressão múltipla.
- Se a análise indicar uma relação crescente até certo máximo com subsequente decréscimo, e se a variabilidade em torno da estimativa for aproximadamente constante, considere também o uso de x e x2 como variáveis explicativas em um único modelo de regressão linear múltipla.
- Se a análise indicar uma relação crescente a taxas decrescentes, e se a variabilidade em torno da estimativa também crescer com o aumento do valor y estimado, experimente o uso de y2 como variável dependente.
- Se a análise indicar uma relação crescente a taxas crescentes com variabilidade em torno da estimativa também crescente conforme y aumenta, experimente o uso de ln(y) como variável dependente. Pode também ser útil às vezes, considerar o logaritmo natural da variável independente, ln(x).
Faça o download da planilha de dados clicando aqui, aplique a transformação que você acha mais recomendada seguindo as sugestões acima. Complete os cálculos necessários para a obtenção dos coeficientes do modelo de regressão linear, dos valores da tabela de análise de variância, e os valores dos coeficientes de correlação e de determinação. Compare com os resultados oferecidos pelo Excel e resuma as suas conclusões.
|