Introdução ao tratamento e análise de dados no R
Condições de conclusão
Instruções
Aberto: quarta-feira, 15 nov. 2023, 00:00
Vencimento: quarta-feira, 29 nov. 2023, 14:00
Instruções
Trabalho individual. Pode-se contar com colaboração de colegas, mas cada discente deve entregar um trabalho original (sem cópia).
- Encontre e selecione um banco de dados científico relacionados ao turismo
O banco deve ter, no mínimo, 100 linhas, 2 variáveis numéricas e 2 variáveis categóricas. Sugestões de fontes de bancos de dados: artigos científicos com open data (como nas revistas RBTUR, PlosONE, Tourism Management, Annals of Tourism Research...) e bases de dados abertos (Zenodo, Mendeley Data, Data in Brief...). - Informe o banco selecionada para análise no fórum da aula no eDisciplinas
Não devem haver repetições na turma. Se o banco de dados desejada já tiver sido selecionada e informada por outro discente, escolha outro banco. - Instale
o R em seu computador
https://cran.r-project.org/ - Instale o R Studio Desktop em seu computador
- https://www.rstudio.com/ - Versão gratuita
- Instale bibliotecas
Abra o R Studio e instale as bibliotecas necessárias utilizando o comando install.packages. Você pode fazer este exercícios de muitas formas diferentes. Logo, não há uma lista de bibliotecas obrigatórias. No entanto, sugere-se instalar as bibliotecas:
a) tidyverse
b) data.tables - Crie um arquivo de script
Todos os procedimentos de tratamento e análise de dados solicitados a seguir devem ser registrados como script. Identifique todos os comandos e comente todos os resultados utilizando #. Ao final da atividade, você deverá entregar um script que é capaz de executar todos os procedimentos solicitados. - Importe o banco de dados selecionada como um objeto do R
Preferencialmente, importe direto da URL onde o banco de dados está hospedado. Se não for possível, salve o arquivo em seu computador e envie o arquivo com o banco de dados juntamente com o script ao final da atividade.
Existem vários formatos para importação do banco de dados. Recomenda-se o uso do formato "data.table", embora "data.frame" e "tibble" sejam ótimos formatos. - Verifique a importação de dados
Sugestão: utilize o comando head ou o glimpse.
- Selecione as variáveis de interesse
Escolha duas variáveis numéricas e duas variáveis categóricas para serem analisadas. Prefira variáveis que teoricamente estejam associadas. Se alguma variável categórica selecionada tiver mais de 5 categorias, crie uma nova variável reduzindo o número de categorias (dica: utilize o comando ifelse ou um teste do data.table). Duas ou três categorias é o ideal. Elimine as variáveis não selecionadas do banco de dados. - Analise os dados faltantes
Apresente o número de dados faltantes (missings) em cada variável. Veja algumas dicas de como fazer isso aqui. - Delete as linhas com dados faltantes
Dica: utilize o comando complete.cases. Veja algumas dicas de como fazer isso aqui. - Tabelas de frequência absoluta
Elabore tabelas de frequência absoluta (número de observações) para cada uma das variáveis categóricas. Veja algumas dias de como fazer isso aqui.c - Tabelas de frequência relativa
Elabore tabelas de frequência relativa (percentual de observações) para cada uma das variáveis categóricas. Veja algumas dias de como fazer isso aqui. Se possível, arredonde, utilizando uma quantidade razoável de casas decimais. - Tabela de frequência cruzada
Elabore tabelas de frequência cruzada para as duas variáveis categóricas. - Gráficos de barras
Elabore gráficos de barras para cada uma das variáveis categóricas. Utilize o comando barplot associado ao comando table. Veja algumas dicas de como fazer isso aqui. - Medidas de resumo
Calcule as principais medidas de resumo para cada uma das variáveis numéricas. Veja algumas dicas de como fazer isso aqui. - Histogramas
Elabore histogramas para cada uma das variáveis numéricas. Veja algumas dicas de como fazer isso aqui. - Gráfico de dispersão
Elabore um gráfico de dispersão para as duas variáveis numéricas. Veja algumas dicas de como fazer isso aqui. - Correlação
Calcule a correlação entre as duas variáveis numéricas. Utilize o comando cor. Veja algumas dicas de como fazer isso aqui. - Salve o script e envie o arquivo .R pelo eDisciplinas.
Se seu script não baixa diretamente o banco de dados de uma URL, envie também o banco de dados.