ACH5504-203-2019: Tarefa 4 - Testando os métodos de agrupamento com sementes de trigo.

Tarefa 4 - Testando os métodos de agrupamento com sementes de trigo.

Aberto: segunda-feira, 11 nov. 2019, 00:00

Vencimento: terça-feira, 26 nov. 2019, 00:00

Usando os mesmos dados de sementes de trigo da Tarefa 3, realizaremos a comparação de métodos de agrupamento de k-Means, hierárquico e por densidade usando o pacote scikit-learn.

1. Obtenha os dados de propriedades de sementes de três variedades diferentes de trigo do site OpenML. Os dados possuem 210 instâncias com 8 atributos cada.

2. Pré-processamento de dados:
- Verifique as correlações entre atributos e elimine os atributos dependente (por exemplo, use somente 4 atributos que tem correlação média menor).
- Faça a normalização dos atributos independentes.

3. Realize agrupamento k-Means (usando sklearn.cluster.KMeans) supondo 3 grupos e pontos centrais inicias aleatorios. Discute como melhorar a escolha dos centroids iniciais. Faça um agrupamento supondo 4 grupos. Calcule a coesão e separação de agrupamentos em 3 e 4 grupos e determine qual número de grupo é correto.

4. Realize agrupamento hierárquico (usando sklearn.cluster.AgglomerativeClustering) e produze o dendrograma dele. Para dicas, veja o tutorial SciPy Hierarchical Clustering and Dendrogram e .

5. Realize agrupamento por densidade (sklearn.cluster.DBSCAN). Teste como agrupamento depende dos parâmetros eps e min_samples. Informe sobre o número estimado de clusters e pontos de ruído e outros parâmetros de avaliação de agrupamento de forma semelhante a exemplo Demo of DBSCAN clustering algorithm.

Início

ACH5504 - Mineração de Dados (2019)

Tarefa 4 - Testando os métodos de agrupamento com sementes de trigo.

Navegação