# Leitura dos dados do arquivo "04_Cluster.csv"
base <- read.table("04_Cluster.csv",header=TRUE,sep=";",dec=",")
names(base)   # Mostra o nome das variáveis
base  # Mostra toda a base de dados
#
dados.quanti <- base[,-1]   # Remove a primeira coluna
dados.quanti  # Mostra toda a base dados.quanti
row.names(dados.quanti) = base[,1]  # A primeira coluna da base cont?m os casos
dados.quanti # Mostra toda a base dados.quanti
dados.quanti <- as.matrix(dados.quanti) # Considera dados.quanto como matriz
dados.quanti # Mostra toda a matriz dados.quanti
dados.z <- scale(dados.quanti)
dados.z
#
# Cálculo de distâncias entre os casos
#d <- dist(dados.quanti, method = "euclidean") 
d <- dist(dados.z, method = "euclidean") 
d
# Considerando a distância euclidiana ao quadrado:
d2 <- d^2  
d2
# Cluster Hierárquico, método: 
grupos.s <- hclust(d2, method="single")     # Ligação Simples
grupos.c <- hclust(d2, method="complete")   # Ligação Completa
grupos.m <- hclust(d2, method="average")    # Ligação Média
grupos.w <- hclust(d2, method="ward")       # Método de Ward
#
# Dendrograma
clstr <- grupos.w  # Considera o tipo de ligação específica
plot(clstr)        # Faz o dendrograma 
groups <- cutree(clstr, k=3) # cut tree into 3 clusters
rect.hclust(grupos.w, k=3, border="red")  # insere retangulos no dendrograma
clstr[]
groups
#
# Adiciona variável GN = Grupos N na base de dados
G2 <- cutree(clstr, k=2) # cut tree into 2 clusters
G3 <- cutree(clstr, k=3) # cut tree into 3 clusters
G4 <- cutree(clstr, k=4) # cut tree into 4 clusters
#
base$G2 <- G2
base$G3 <- G3
base$G4 <- G4
#
base
# 
limx = range(base$gastos) + c(-5, 5)
limy = range(base$lucro) + c(-5, 5)
#  
plot(base$gastos,base$lucro,xlim = limx, ylim = limy, col = base$G3,pch = 19)
text(base$gastos+1,base$lucro+1, labels = base$Empresa, cex=1)
#
base