{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "## Gradient Boosting Trees\n", "\n", "Neste notebook, vamos aprender um método de classificação muito poderoso, cuja ideia é fácil de entender, mas cuja formulação matemática nem tanto.\n", "\n", "A ideia do método é muito antiga e fora da comunidade de aprendizado é conhecida como teorema do juri de Condorcet (\"Essay sur l'applicacion de l'analyse à la probabilités dés decisions\" de 1785). Neste artigo do marquês de Condorcet, ele se coloca a questão de quantas pessoas são necessárias num juri para este tomar uma decisão correta.\n", "\n", "O teorema diz que, num juri que tem que decidir entre duas decisões, sendo que uma delas é a correta, se cada pessoa escolher independentemente a decisão correta com probabilidade p, se essa probabilidade for maior que 1/2 (isto é, cada membro do juri tem probabilidade de votar corretamente maior do que 1/2), então adicionando mais membros ao juri, aumenta as chances que o juri se decida pela decisão correta.\n", "\n", "Na área de aprendizado de máquina, essa ideia e o nome \"boosting\" (incremento) aparece no artigo de Michael Kearns: \"Thoughts on Hypothesis Boosting\". Neste artigo, Kearns introduz o conceito de classificadores fracos, ou hipóteses fracas (\"weak learners\", ou \"weak hypothesis\"), que são classificadores que têm performance um pouco melhor que um classificador aleatório, e apresenta algumas ideias de como juntar classificadores fracos para criar um classificador melhor.\n", "\n", "Ideias como essa avançaram através de diversos artigos e serviram como faísca para a criação de uma nova área de pesquisa: combinação de classificadores (\"ensemble learning\").\n", "\n", "Aqui, vamos nos restringir a um desses avanços, Gradient Boosting Regression Trees (ou simplesmente, Gradient Boosting Trees), cuja principal contribuição foi dada por Jerome H. Friedman, um pesquisador de Stanford, que criou, dentre outras coisas, o algoritmo CART para indução de árvores de decisão. No artigo: \"Greedy Function Approximation: A Gradient Boosting Machine\" (http://www-stat.stanford.edu/~jhf/ftp/trebst.pdf), Friedman apresenta o problema da seguinte maneira:\n", "\n", "Dado um conjunto finito de exemplos do tipo $\\{\\bf{x}_i,y_i\\}$, onde $\\bf{x}_i \\in R^d$ e $y_i \\in R$, e $y_i = F(\\bf{x}_i)$ ($F:R^d \\rightarrow R$ é uma função desconhecida) e uma função de custo $L$, podemos aproximar $F$ por uma função $G$ estimada, minimizando o valor esperado da função de custo $L(y,G(\\bf{x}))$ sobre todos os valores possíveis da distribuição conjunta discreta $(y,\\bf{x})$ escrevendo $G$ como uma função iterativa $G_m$ da seguinte forma:\n", "$$\n", "G_m(\\bf{x}) = G_{m-1}(\\bf{x}) + \\rho_m h(\\bf{x};\\bf{a}_m)\n", "$$\n", "onde $\\rho_m$ é uma taxa de aprendizado (que pode ser dada, ou estimada), $\\bf{a}_m$ são parâmetros a serem estimados e $\\{h(\\bf{x};\\bf{a}_m)\\}_1^M$ são um conjunto de funções de base que, neste caso, podem ser árvores de decisão pouco profundas.\n", "\n", "Em outras palavras, a função $F$ pode ser aproximada por uma soma de contribuições de árvores de decisão. No entanto, vale notar que uma vez calculada a árvore no passo $m-1$, ela está fixa e não vai mais ser modificada na próxima iteração.\n", "\n", "A otimização é usualmente feita pelo algoritmo do gradiente descendente e a teoria completa sobre o assunto (Gradient Boosting Machine) é extensa e foge ao escopo deste mini-curso. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Exemplo de aplicação\n", "\n", "Neste exemplo, revisitamos um exemplo de regressão com árvores de decisão e comparamos qualitativamente com o GBRT. Para isso, vamos novamente usar o sklearn, desta vez o método GradientBoostingRegressor da classe ensemble:\n", "\n", "https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#sklearn.ensemble.GradientBoostingClassifier\n", "\n", "Note que, sendo um classificador mais complexo, que é uma somatória de classificadores, o número de parâmetros é bem maior. No exemplo abaixo, usamos quatro deles:\n", "\n", "- Número de iterações/estimadores: n_estimators;\n", "- Taxa de aprendizado: learning_rate;\n", "- Profundidade máxima de cada árvores: max_depth;\n", "- Semente aleatória: random_state;" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Importa os módulos necessários\n", "\n", "from sklearn.tree import DecisionTreeRegressor\n", "from sklearn.ensemble import GradientBoostingRegressor\n", "from sklearn.metrics import mean_squared_error\n", "import numpy as np\n", "import matplotlib.pyplot as plt\n", "\n", "# Cria um conjunto de dados aleatório\n", "# inicializa a semente\n", "rng = np.random.RandomState(1)\n", "\n", "# Cria um domínio de 80 pontos em posições aleatórias do eixo X.\n", "X = np.sort(5 * rng.rand(80, 1), axis=0)\n", "\n", "# Cria uma função que é um seno adicionado a um ruído.\n", "y = np.sin(X).ravel()\n", "y[::5] += 3 * (0.5 - rng.rand(16))\n", "\n", "# Calcula a regressão baseada em DT\n", "regrDT = DecisionTreeRegressor(max_depth=5)\n", "regrDT.fit(X, y)\n", "\n", "# Calcula a regressão baseada em GBRT\n", "GBRT = GradientBoostingRegressor(n_estimators=100, \n", " learning_rate=0.5, \n", " max_depth=1, \n", " random_state=0)\n", "GBRT.fit(X,y)\n", "\n", "\n", "# Cria um domínio de pontos arranjados uniformemente no eixo X\n", "X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]\n", "\n", "# Prediz o valor da função baseada na DT\n", "y_DT = regrDT.predict(X_test)\n", "\n", "# Prediz o valor da função baseada no GBRT\n", "y_GBRT = GBRT.predict(X_test)\n", "\n", "# Apresenta os resultados num gráfico\n", "plt.figure()\n", "plt.scatter(X, y, c=\"#E84F22\", label=\"data\")\n", "plt.plot(X_test, y_DT, color=\"#82BAC5\", label=\"max_depth=5\", linewidth=2)\n", "plt.plot(X_test, y_GBRT, color=\"#37454B\", label=\"GBRT\", linewidth=2)\n", "plt.xlabel(\"data\")\n", "plt.ylabel(\"target\")\n", "plt.title(\"Decision Tree vs Gradient Boosting Trees\")\n", "plt.legend()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Exercício: Experimente mudar os valores dos parâmetros da GBRT e veja como ela se comporta." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Outro exemplo do sklearn\n", "\n", "O exemplo abaixo é uma adaptação do exemplo que está no site do sklearn:\n", "\n", "https://scikit-learn.org/stable/auto_examples/ensemble/plot_gradient_boosting_regression.html\n", "\n", "que foi feito por Peter Prettenhover. \n", "\n", "O dataset usado é o \"Boston Housing\", que contém informções do censo americano sobre domicílios na área de Boston Massachusetts. Um dos lugares que esse dataset está arquivado é aqui:\n", "\n", "http://lib.stat.cmu.edu/datasets/boston\n", "\n", "O conjunto contém 506 dados, 14 atributos, sendo que um deles (MEDV - \"Median value of owner-occupied homes in $1000\" ) é o preço das casas, que é usado normalmente como variável alvo. Uma coisa a ser notada é que os preços altos foram censurados.\n", "\n", "O objetivo do exemplo é predizer os preços das casas (MEDV) baseado nesses 13 atributos." ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])\n" ] } ], "source": [ "# Author: Peter Prettenhofer \n", "#\n", "# License: BSD 3 clause\n", "\n", "# Adaptado para o curso de aprendizado de máquina.\n", "\n", "# Importa as bibliotecas necessárias.\n", "from sklearn import datasets\n", "from sklearn.utils import shuffle\n", "from sklearn.metrics import mean_squared_error\n", "\n", "# Carrega o conjunto de dados.\n", "boston = datasets.load_boston()\n", "\n", "print(boston.keys())" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "# Usando o método DESCR, do boston dataset, imprima as informações sobre o dataset\n", "# A ideia é apagar esta linha e deixar como exercício." ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [], "source": [ "# Exercício: Usando o método head, veja os primeiros valores do dataset." ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [], "source": [ "# Exercício: Escolha dois atributos que você ache que tem mais correlação \n", "# com os preços das casas e faça um par de gráficos para ver se essa relação\n", "# realmente existe." ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "MSE Training: 1.7677\n" ] } ], "source": [ "# Cria um conjunto de dados rotulados, embaralhando a ordem dos dados originais.\n", "X, y = shuffle(boston.data, boston.target, random_state=13)\n", "X = X.astype(np.float32)\n", "\n", "# Separa o conjunto em treino (90%) e teste \n", "offset = int(X.shape[0] * 0.9)\n", "X_train, y_train = X[:offset], y[:offset]\n", "X_test, y_test = X[offset:], y[offset:]\n", "\n", "# Ajusta a regressão baseada em GBRT\n", "# Note que no exemplo os parâmetros são passados de uma forma diferente\n", "# da vista anteriormente. \n", "\n", "# Primeiro cria-se um dicionário de parâmetros\n", "params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 2,\n", " 'learning_rate': 0.01, 'loss': 'ls'}\n", "\n", "# Passa-se a referência do dicionário para a função e\n", "# cria-se o modelo.\n", "clf = GradientBoostingRegressor(**params)\n", "\n", "# Ajusta o modelo com os dados de treinamento.\n", "clf.fit(X_train, y_train)\n", "\n", "# Calcula-se o erro de treinamento\n", "mseTrain = mean_squared_error(y_train, clf.predict(X_train))\n", "print(\"MSE Training: %.4f\" % mseTrain)" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "# Exercício: Mofifique as duas últimas linhas para calcular o erro no\n", "# conjunto de testes" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Text(0, 0.5, 'Deviance')" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Apresenta um gráfico do erro de treinamento e de teste para cada iteração do GBRT\n", "\n", "test_score = np.zeros((params['n_estimators'],), dtype=np.float64)\n", "\n", "# Olhe o que o método staged_predict faz neste help:\n", "# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#sklearn.ensemble.GradientBoostingClassifier.staged_predict\n", "for i, y_pred in enumerate(clf.staged_predict(X_test)):\n", " test_score[i] = clf.loss_(y_test, y_pred)\n", "\n", "# Apresenta o gráfico \n", "plt.figure(figsize=(12, 6))\n", "plt.subplot(1, 2, 1)\n", "plt.title('Deviance')\n", "plt.plot(np.arange(params['n_estimators']) + 1, clf.train_score_, 'b-',\n", " label='Training Set Deviance')\n", "plt.plot(np.arange(params['n_estimators']) + 1, test_score, 'r-',\n", " label='Test Set Deviance')\n", "plt.legend(loc='upper right')\n", "plt.xlabel('Boosting Iterations')\n", "plt.ylabel('Deviance')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Importância das variáveis\n", "\n", "Um subproduto do algoritmo GBRT é o cálculo da importância \n", "de cada característica. O exemplo abaixo apresenta a importância\n", "relativa emum gráfico." ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Extrai a importância calculada de cada característica.\n", "feature_importance = clf.feature_importances_\n", "\n", "# Calcula a importância relativa em relação à máxima importância.\n", "feature_importance = 100.0 * (feature_importance / feature_importance.max())\n", "\n", "# Apresenta um gráfico por ordem de importância.\n", "sorted_idx = np.argsort(feature_importance)\n", "pos = np.arange(sorted_idx.shape[0]) + .5\n", "plt.subplot(1, 2, 2)\n", "plt.barh(pos, feature_importance[sorted_idx], align='center')\n", "plt.yticks(pos, boston.feature_names[sorted_idx])\n", "plt.xlabel('Relative Importance')\n", "plt.title('Variable Importance')\n", "plt.show()" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.5" } }, "nbformat": 4, "nbformat_minor": 2 }