Trabalho - Estudo de simulação

\(\bigstar\) Objetivo: estudar o comportamento das estimativas dos parâmetros do modelo de regressão quando o tamanho da amostra aumenta.

Estrutura do trabalho

  • Formato de um resumo expandido de acordo com os templates disponíveis no moodle.

  • No máximo 10 páginas e não há mínimo de páginas.

Modelos de regressão

  • linear simples (Camilla, Fabio, Juliano)

O modelo é definido como \[Y_i=\beta_0+\beta_1x_i+\epsilon_i, \quad i=1,\ldots,n,\] em que \(\epsilon_i\sim N(0,\sigma^2)\)


  • não linear (Allison, Gabriela)

O modelo \[Y_i=A(1-b\exp(-kx_i))+\epsilon_i, \quad i=1,\ldots,n,\] é conhecido como curva de crescimento Brody, em que \(\epsilon_i\sim N(0,\sigma^2)\).


  • binomial negativa (Gustavo Pompeu da Silva)

Se \(Y_i\sim BN(\mu_i,\phi)\), então a função de probabilidade é dada por \[P(Y_i=y)=\frac{\Gamma(\phi+y_i)}{\Gamma(y_i+1)\Gamma(\phi)}\left(\frac{\mu_i}{\mu_i+\phi}\right)^{y_i}\left(\frac{\phi}{\mu_i+\phi}\right)^{\phi}, \quad y=0,1,\ldots,\] em que a parte sistemática é \(\log(\mu_i)=\beta_0+\beta_1x_i(i=1,\ldots, n)\) e \(\log(.)\) é uma função de ligação.


  • delineamento inteiramente casualizado (Gustavo Santos de Oliveira, Leopoldo)

O modelo associado ao delineamento é dado por \[Y_{ij}=\mu+\tau_i+\epsilon_{ij}, \quad i=1,2,3 \mbox{ tratamentos} \quad \mbox{ e } \quad j=1,\ldots, r \mbox{ repetições},\] em que \(\sum\limits_{i=1}^{3}\tau_i=0\) e \(\epsilon_{ij}\sim N(0,\sigma^2)\).

Simulação

  • Para o modelo de regressão linear simples, não linear e binomial negativa, considerar tamanhos de amostras de \(n=20\), \(100\) e \(500\).

  • Para o modelo de um delineamento completamente aleatorizado, utilizar repetições iguais a \(r=2\), \(4\) e \(10\).

  • Para o modelo de regressão linear simples e binomial negativa, gerar a variável explicativa como \(x\sim U(0,1)\), para representar uma variável contínua.

  • Para o modelo de regressão não linear, gerar a variável explicativa como \(x\sim \exp(1)\), para representar uma variável contínua.

  • Para o modelo de delineamento completamente aleatorizado, gerar o fator (variável explicativa) com níveis expressos por \(A\), \(B\) e \(C\).

  • Utilizar o método da transformação inversa ou o método da aceitação e rejeição e o método da transformação Box-Muller para gerar as variáveis aleatórias.

  • Para cada cada tamanho de amostra ou repetição, gerar 1000 réplicas e de cada réplica estimar os parâmetros do modelo. “Guardar” as estimativas dos parâmetros em uma matriz de ordem \(1000\times p\), em que \(p\) é o número de parâmetros estimados.

  • Para cada tamanho de amostra ou repetição, calcular a média das 1000 estimativas e o erro padrão. Calcular também o erro quadrático médio dado por \[EQM=\mbox{var}(\hat{\theta})+[E(\hat{\theta})-\theta]^2,\] em que \(\theta\) é o parâmetro e \(\hat{\theta}\) é o estimador.

Apresentar essas informações em um formato de tabela com os verdadeiros valores dos parâmetros.

  • Para cada tamanho de amostra ou repetição, construir um histograma com as 1000 estimativas e inserir uma linha vertical indicando o verdadeiro valor do parâmetro com uma cor diferente do default. Coloque 3 gráficos por figura.

  • Para o modelo de regressão linear simples, não linear e do delineamento completamente aleatorizado, não precisam fazer um estudo sobre o parâmetro \(\sigma^2\).

Obtenção das estimativas

\(\blacktriangleright\) Para o modelo de regressão linear simples, utilizar as estimativas \(\hat{\beta}_0\) e \(\hat{\beta}_0\) definidas em aula.


\(\blacktriangleright\) Para o modelo de regressão não linear, utilizar o seguinte pacote

library(nls2)
♯ função para estimar parâmetros
nome1 <- nls(y~modelo_brody), start=list(A=,b=,k=))

♯ extrair as estimativas
nome2 <- coef(nome1)
♯ estimativa de A
nome2[[1]]

em que start é o valor inicial, considere os mesmos valores utilizados para gerar as amostras.


\(\blacktriangleright\) Para o modelo de regressão binomial negativa, utilizar o seguinte pacote

library(MASS)
nome <- glm.nb(modelo, link = funcao_ligacao)
♯ estimativa de β0
nome$coefficients[[1]]


\(\blacktriangleright\) Para o modelo de delineamento completamente aletorizado, utilizar

função para estimar parâmetros
nome <- lm(y~fator)

♯ estimativa de μ 
nome$coefficients[1]
♯ estimativa de τ2 
nome$coefficients[2]