Tarefa 4 - Testando os métodos de agrupamento com sementes de trigo.

Usando os mesmos dados de sementes de trigo da Tarefa 3, realizaremos a comparação de métodos de agrupamento de k-Means, hierárquico e por densidade usando o pacote scikit-learn.

1. Obtenha os dados de propriedades de sementes de três variedades diferentes de trigo do site OpenML. Os dados possuem 210 instâncias com 8 atributos cada.

2. Pré-processamento de dados:
  - Verifique as correlações entre atributos e elimine os atributos dependente (por exemplo, use somente 4 atributos que tem correlação média menor).
  - Faça a normalização dos atributos independentes.

3. Realize agrupamento k-Means (usando sklearn.cluster.KMeans) supondo 3 grupos e pontos centrais inicias aleatorios.  Discute como melhorar a escolha dos centroids iniciais.  Faça um agrupamento supondo 4 grupos. Calcule a coesão e separação de agrupamentos em 3 e 4 grupos e determine qual número de grupo é correto.

4. Realize agrupamento hierárquico (usando sklearn.cluster.AgglomerativeClustering) e produze o dendrograma dele. Para dicas, veja o tutorial SciPy Hierarchical Clustering and Dendrogram e .

5. Realize agrupamento por densidade (sklearn.cluster.DBSCAN). Teste como agrupamento depende dos parâmetros eps e min_samples. Informe sobre o número estimado de clusters e pontos de ruído e outros parâmetros de avaliação de agrupamento de forma semelhante a exemplo Demo of DBSCAN clustering algorithm.

e-Disciplinas - Ambiente de apoio às disciplinas da USP