rm(list=ls(all=TRUE))
gc(TRUE)

#set.seed(1) 

dados.banc<-read.table("C:/Users/User/Desktop/ESTUDAR/MONITORIA/Aula 2020.11.26/Dados_bancarios.csv", header=TRUE, sep=";", dec=",")

names(dados.banc)
attach(dados.banc)

View(dados.banc)


# Realize uma análise exploratoria dos dados
#install.packages("corrplot")
library(corrplot)
corrplot(cor(dados.banc))

boxplot(Idade ~Inadimplente )

boxplot(Salario.decl ~Inadimplente )

boxplot(Saldo.cc ~ Inadimplente )


# Desenvolva uma análise discriminante considerando o status Inadimplente 
# Utilize como covariáveis o Sexo, idade, empresa, salário declarado, saldo em conta corrente
# + saldo na poupança, saldo em conta há 1 e 2 anos.

# Separe 70% da base para treino e avalie o percentual de acertos na base de teste

amostra <- sample(nrow(dados.banc)*0.7, replace = F)

dados.treino <- dados.banc[amostra,]
dados.teste <- dados.banc[-amostra,]


# Modelo de regressão logística considerando a base de treino
modelo<-glm(Inadimplente ~ Sexo+Idade+Empresa+Salario.decl+Saldo.cc+Saldo.poup+Saldo.1ano+Saldo.2anos+Tempo.relac, 
            family=binomial(link = 'logit'), data=dados.treino)
summary(modelo)

# Predição na base de teste
predicao <- predict(modelo, newdata=dados.teste, type="response") 

dados.teste$classificacao <- 0
dados.teste$classificacao[predicao>0.5] = 1
  

# Calculo do percentual de acerto comparando o predito (classificação) e o observado

sum(1-abs(dados.teste$classificacao - dados.teste$Inadimplente))/nrow(dados.teste)

#como melhorar o modelo?


# Modelo de regressão logística considerando a base de treino
modelo<-glm(Inadimplente ~ Dev.cartao+Sexo+Idade+Empresa+Salario.decl+Saldo.cc+Saldo.poup+Saldo.1ano+Saldo.2anos+Tempo.relac, 
            family=binomial(link = 'logit'), data=dados.treino)
summary(modelo)

# Predição na base de teste
predicao <- predict(modelo, newdata=dados.teste, type="response") 

dados.teste$classificacao <- 0
dados.teste$classificacao[predicao>0.5] = 1


# Calculo do percentual de acerto comparando o predito (classificação) e o observado

sum(1-abs(dados.teste$classificacao - dados.teste$Inadimplente))/nrow(dados.teste)


# Sugestões para melhorar este modelo?