#gerando AQUELE banco de dados conhecido nosso
set.seed(5712)
sexo <- c('Homem', 'Mulher')
tabela <- data.frame(glicemia = rnorm(n = 100000, mean = 90, sd = 5), 
                     renda = rlnorm(n = 100000, meanlog = 7, sdlog = 0.7), 
                     distancia = runif(n = 100000, min = 100, max = 10000),
                     sexo = sample(x = sexo, size = 100000, replace = T))

set.seed(3705676) #substituir pelo seu número USP

# Calcule o intervalo de confiança para uma amostra da variável glicemia
tamanho_amostras <- 100
amostra <- sample(x = tabela$glicemia, size = tamanho_amostras)
media_amostra <- mean(amostra)
desvio_padrao_amostra <- sd(amostra)
raiz_tamanho <- sqrt(tamanho_amostras)
erro <- (1.96) * desvio_padrao_amostra / raiz_tamanho
limite_inferior_IC <- media_amostra - erro
limite_superior_IC <- media_amostra + erro
media_amostra
limite_inferior_IC
limite_superior_IC

# submeta seus resultados em
# https://goo.gl/forms/bfWau1nu2zBdpvbl1

#Algumas operações:
#Multiplicação
2*2
#Elevar ao quadrado
3^2
#Divisão
6/2

# Calcule o tamanho da amostra necessário para estimar a média populacional de glicemia, considerando um erro de 10mg/dL(IC 95%).
# Calcule o tamanho da amostra necessário para estimar a média populacional de glicemia, considerando um erro de 5mg/dL (IC 95%).
# Calcule o tamanho da amostra necessário para estimar a média populacional de renda, considerando um erro de $100 (IC 95%).

# Faça uma amostra para cada cenário anterior e calcule o IC (95%). O erro da sua amostra está próximo do previsto? A média populacional está dentro do seu IC?

# TRUE/FALSE
# contando quantas observações se encaixam em um critério
vetor_teste <- 1:10
vetor_teste
# Quais observações são iguais ou superiores a 5
vetor_teste >= 5
# Quando vc faz operações matemáticas com vetores lógicos,
# o R trata TRUE = 1 e FALSE = 0
# Quantas observações são iguais ou superiores a 5
sum(vetor_teste >= 5)
# Qual a proporção de observações que são iguais ou superiores a 5?
sum(vetor_teste >= 5) / length(vetor_teste)
# Se quiser em porcentagem
100 * sum(vetor_teste >= 5) / length(vetor_teste)
# Teste com outros números

#Exercicio
numero_amostras <- 1000
tamanho_amostras <- 10
medias_amostras_glicemia <- NA
medias_amostras_renda <- NA
medias_amostras_distancia <- NA

for (amostra in 1:numero_amostras) {
  medias_amostras_glicemia[amostra] <- mean(sample(x = tabela$glicemia, size = tamanho_amostras))
  medias_amostras_renda[amostra] <- mean(sample(x = tabela$renda, size = tamanho_amostras))
  medias_amostras_distancia[amostra] <- mean(sample(x = tabela$distancia, size = tamanho_amostras))
}

# Qual a probabilidade de, retirando uma amostra de tamanho = 10 da variável glicemia, obter uma média amostral maior ou igual a 93?
# Qual a probabilidade de, retirando uma amostra de tamanho = 10 da variável glicemia, obter uma média amostral com uma diferença maior ou igual a 5 da média populacional?
# Qual a probabilidade de, retirando uma amostra de tamanho = 10 da variável renda, obter uma média amostral com uma diferença maior ou igual a 100 da média populacional?
# Qual a probabilidade de, retirando uma amostra de tamanho = 10 da variável renda, obter uma média amostral com uma diferença maior ou igual a 500 da média populacional?
# Repita o raciocínio para a variável distância, escolhendo dois valores de difereça à sua escolha.

hist(medias_amostras_glicemia)
abline(v = 93, col = 'red')
hist(medias_amostras_renda)
abline(v = 2000, col = 'red')
hist(medias_amostras_distancia)
abline(v = 6000, col = 'red')