Projeto prático - etapa 1

Descrição e objetivo

  1. O objetivo deste projeto é desenvolver uma solução de visualização de dados exploratória inicial para um  conjunto de dados (escolhido da lista abaixo), com os recursos de pré processamento e visualização (`visual encoding´) que julgarem apropriados.

  2. As técnicas de visualização devem ser adequadas aos dados e às tarefas de visualização/análise exploratória.

  3. Não há limite no número de visualizações a serem oferecidas. Esperamos que elas sejam, no conjunto, significativas e úteis para uma análise investigativa inicial dos dados  escolhido.

  4. Não há necessidade de visualizar todo o conteúdo dos dados, muitos datasets têm muitos atributos, vocês podem escolher aqueles interessantes para a análise investigativa que tem em mente. Para guiar essa esolha considerem quais perguntas sobre os dados vocês gostariam que as visualizações ajudassem a responder.

  5. É esperado que, em ao menos uma das visualizações, seja  aplicado algum tipo de processamento aos dados antes de fazer uma codificação visual. Por exemplo, nos dados do Spotify as músicas possuem, entre outros, um atributo gênero (um valor categórico) e um atributo energia, um valor numérico. Um possível processamento seria calcular a média e desvio padrão da energia das músicas, para cada  gênero.  

Entrega

  1. O projeto deve ser entregue no eDisciplinas, na forma de um arquivo texto com o link para o Jupyter Notebook (e se for o caso também o link para o vídeo) até 26-09.

  2.  O relatório associado ao código deve apresentar (no próprio Jupyter notebook):

  • Identificação do grupo: NUSP e nomes. (grupos de 3)

  • Uma introdução ao conjunto de dados: do que se trata? em que contexto podem ser usados?

  • abstração dos dados e data profiling: justificar as escolhas das técnicas de visualização, em função da natureza dos dados a serem exibidos. (sejam objetivos, poucas linhas são necessárias para essas justificativas).

  • Obs. Uma dica para a escrita é ‘vender bem’ a sua visualização, mostrar que ela está bem feita, segue boas práticas e está revelando informações úteis para o contexto daqueles dados.

  1. Certifiquem-se que o Jupyter Notebook consegue executar sem problemas no Google Colab, de maneira sequencial.

  2. Aproveitem as células de texto em Markdown do Jupyter para descrever as visualizações à medida que são geradas, e assim compor o relatório. (a organização das visualizações com as justificativas nos ajuda na tarefa de avaliar!) 

  3. Opcionalmente, a critério do grupo, podem entregar um vídeo de no máximo 5 minutos apresentando a solução de maneira complementar ao relatório. (imagine que você está apresentando uma solução para um cliente, mostrando como ela permite explorar esse conjunto de dados e descobrir informações interessantes!)

Conjuntos de dados (escolha entre estes o que lhe parecer mais interessante)

  • Mudança de temperatura no mundo:

 https://www.kaggle.com/datasets/sevgisarac/temperature-change

  • Database de filmes IMDb:

https://www.kaggle.com/datasets/harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows

Aqui um dataset sobre os 1000 filmes mais bem avaliados no IMDb, há muitos dados categóricos aqui.

  • Spotify( mais tocadas )

https://www.kaggle.com/datasets/nelgiriyewithana/top-spotify-songs-2023

Neste dataset estão as músicas mais tocadas em 2023, há dados sobre as características das músicas, um dataset com muitas possibilidades de visualizações. Um dataset com muitos dados numéricos.

  • Dados dos jogadores do Fifa

https://www.kaggle.com/datasets/bryanb/fifa-player-stats-database

Nesse há vários .csv, porém não há a necessidade de trabalhar com todos, eles são os dados dos jogadores de cada ano de lançamento do jogo ‘Fifa’, são muitas colunas com uma variedade interessante de tipo de dados.

  • Dados Covid Brasil

https://www.kaggle.com/datasets/unanimad/corona-virus-brazil?select=brazil_covid19_cities.csv

São 6 .csv com dados sobre o covid no Brasil, tem as cidades, casos por estado, por cidade e dados do país, coordenadas geográficas das cidades. É um dataset com bastante dados para trabalhar, a parte de análise pode ser mais trabalhosa, porém é um conjunto de dados bem rico e há várias formas de visualizá-lo.

*Dicas: 

Para apoiar a escolha dos mapeamentos visuais pode utilizar, além do material de aula, o site From Data To Viz

Para compartilhar o dataset de forma remota e fácil com seu grupo, carregue-o no Github ou outra plataforma que seja possível fazer o upload de arquivos e gerar um link (como ilustrado  na Aula prática 01)


Observações

  1. A nota vai considerar a solução desenvolvida e o relatório. O vídeo vale um bônus de até 1.5 ponto na nota, dependendo da qualidade.

  2. Evitem usar bibliotecas não disponíveis no Colab, mas se usarem, informem no relatório e especifiquem.

  3. Os projetos devem estar de acordo com a especificação. Caso tenha interesse em fazer algo diferente, p.ex., utilizar outro conjunto de dados, consulte a professora antes.

  4. Na etapa 2 do trabalho, vamos pedir que aprimorem a solução apresentada e que incluam novos recursos de interação. Será muito mais fácil se você puder continuar com o dataset escolhido e com as visualizações já desenvolvidas, então faça boas visualizações e um bom código para que possa reutilizá-los.

  5. Divirtam-se!


Última atualização: terça-feira, 12 set. 2023, 19:09