\(\bigstar\) Objetivo: estudar o comportamento das estimativas dos parâmetros do modelo de regressão quando o tamanho da amostra aumenta.
Formato de um resumo expandido de acordo com os templates disponíveis no moodle.
No máximo 10 páginas e não há mínimo de páginas.
O modelo é definido como \[Y_i=\beta_0+\beta_1x_i+\epsilon_i, \quad i=1,\ldots,n,\] em que \(\epsilon_i\sim N(0,\sigma^2)\)
O modelo \[Y_i=A(1-b\exp(-kx_i))+\epsilon_i, \quad i=1,\ldots,n,\] é conhecido como curva de crescimento Brody, em que \(\epsilon_i\sim N(0,\sigma^2)\).
Se \(Y_i\sim BN(\mu_i,\phi)\), então a função de probabilidade é dada por \[P(Y_i=y)=\frac{\Gamma(\phi+y_i)}{\Gamma(y_i+1)\Gamma(\phi)}\left(\frac{\mu_i}{\mu_i+\phi}\right)^{y_i}\left(\frac{\phi}{\mu_i+\phi}\right)^{\phi}, \quad y=0,1,\ldots,\] em que a parte sistemática é \(\log(\mu_i)=\beta_0+\beta_1x_i(i=1,\ldots, n)\) e \(\log(.)\) é uma função de ligação.
O modelo associado ao delineamento é dado por \[Y_{ij}=\mu+\tau_i+\epsilon_{ij}, \quad i=1,2,3 \mbox{ tratamentos} \quad \mbox{ e } \quad j=1,\ldots, r \mbox{ repetições},\] em que \(\sum\limits_{i=1}^{3}\tau_i=0\) e \(\epsilon_{ij}\sim N(0,\sigma^2)\).
Para o modelo de regressão linear simples, não linear e binomial negativa, considerar tamanhos de amostras de \(n=20\), \(100\) e \(500\).
Para o modelo de um delineamento completamente aleatorizado, utilizar repetições iguais a \(r=2\), \(4\) e \(10\).
Para o modelo de regressão linear simples e binomial negativa, gerar a variável explicativa como \(x\sim U(0,1)\), para representar uma variável contínua.
Para o modelo de regressão não linear, gerar a variável explicativa como \(x\sim \exp(1)\), para representar uma variável contínua.
Para o modelo de delineamento completamente aleatorizado, gerar o fator (variável explicativa) com níveis expressos por \(A\), \(B\) e \(C\).
Utilizar o método da transformação inversa ou o método da aceitação e rejeição e o método da transformação Box-Muller para gerar as variáveis aleatórias.
Para cada cada tamanho de amostra ou repetição, gerar 1000 réplicas e de cada réplica estimar os parâmetros do modelo. “Guardar” as estimativas dos parâmetros em uma matriz de ordem \(1000\times p\), em que \(p\) é o número de parâmetros estimados.
Para cada tamanho de amostra ou repetição, calcular a média das 1000 estimativas e o erro padrão. Calcular também o erro quadrático médio dado por \[EQM=\mbox{var}(\hat{\theta})+[E(\hat{\theta})-\theta]^2,\] em que \(\theta\) é o parâmetro e \(\hat{\theta}\) é o estimador.
Apresentar essas informações em um formato de tabela com os verdadeiros valores dos parâmetros.
Para cada tamanho de amostra ou repetição, construir um histograma com as 1000 estimativas e inserir uma linha vertical indicando o verdadeiro valor do parâmetro com uma cor diferente do default. Coloque 3 gráficos por figura.
Para o modelo de regressão linear simples, não linear e do delineamento completamente aleatorizado, não precisam fazer um estudo sobre o parâmetro \(\sigma^2\).
\(\blacktriangleright\) Para o modelo de regressão linear simples, utilizar as estimativas \(\hat{\beta}_0\) e \(\hat{\beta}_0\) definidas em aula.
\(\blacktriangleright\) Para o modelo de regressão não linear, utilizar o seguinte pacote
library(nls2) ♯ função para estimar parâmetros nome1 <- nls(y~modelo_brody), start=list(A=,b=,k=)) ♯ extrair as estimativas nome2 <- coef(nome1) ♯ estimativa de A nome2[[1]]
em que start
é o valor inicial, considere os mesmos valores utilizados para gerar as amostras.
\(\blacktriangleright\) Para o modelo de regressão binomial negativa, utilizar o seguinte pacote
library(MASS) nome <- glm.nb(modelo, link = funcao_ligacao) ♯ estimativa de β0 nome$coefficients[[1]]
\(\blacktriangleright\) Para o modelo de delineamento completamente aletorizado, utilizar
função para estimar parâmetros nome <- lm(y~fator) ♯ estimativa de μ nome$coefficients[1] ♯ estimativa de τ2 nome$coefficients[2]