# Leitura dos dados do arquivo "04_Cluster.csv" base <- read.table("04_Cluster.csv",header=TRUE,sep=";",dec=",") names(base) # Mostra o nome das variáveis base # Mostra toda a base de dados # dados.quanti <- base[,-1] # Remove a primeira coluna dados.quanti # Mostra toda a base dados.quanti row.names(dados.quanti) = base[,1] # A primeira coluna da base cont?m os casos dados.quanti # Mostra toda a base dados.quanti dados.quanti <- as.matrix(dados.quanti) # Considera dados.quanto como matriz dados.quanti # Mostra toda a matriz dados.quanti dados.z <- scale(dados.quanti) dados.z # # Cálculo de distâncias entre os casos #d <- dist(dados.quanti, method = "euclidean") d <- dist(dados.z, method = "euclidean") d # Considerando a distância euclidiana ao quadrado: d2 <- d^2 d2 # Cluster Hierárquico, método: grupos.s <- hclust(d2, method="single") # Ligação Simples grupos.c <- hclust(d2, method="complete") # Ligação Completa grupos.m <- hclust(d2, method="average") # Ligação Média grupos.w <- hclust(d2, method="ward") # Método de Ward # # Dendrograma clstr <- grupos.w # Considera o tipo de ligação específica plot(clstr) # Faz o dendrograma groups <- cutree(clstr, k=3) # cut tree into 3 clusters rect.hclust(grupos.w, k=3, border="red") # insere retangulos no dendrograma clstr[] groups # # Adiciona variável GN = Grupos N na base de dados G2 <- cutree(clstr, k=2) # cut tree into 2 clusters G3 <- cutree(clstr, k=3) # cut tree into 3 clusters G4 <- cutree(clstr, k=4) # cut tree into 4 clusters # base$G2 <- G2 base$G3 <- G3 base$G4 <- G4 # base # limx = range(base$gastos) + c(-5, 5) limy = range(base$lucro) + c(-5, 5) # plot(base$gastos,base$lucro,xlim = limx, ylim = limy, col = base$G3,pch = 19) text(base$gastos+1,base$lucro+1, labels = base$Empresa, cex=1) # base