Add notebook

471bfd28 · Léo Bouscarrat · c876d659 · 471bfd28
Commit 471bfd28 authored 5 years ago by Léo Bouscarrat
--- a/notebooks/Réduction de fôrets aléatoires.ipynb
+++ b/notebooks/Réduction de fôrets aléatoires.ipynb
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Groupe de travail\n",
+    "\n",
+    "Le but de ce notebook est de tester l'idée de réduction des random forest"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Import scikit-learn"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from statistics import mean \n",
+    "\n",
+    "from sklearn.datasets import load_boston, load_breast_cancer\n",
+    "from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor\n",
+    "from sklearn.linear_model import OrthogonalMatchingPursuit\n",
+    "from sklearn.metrics import mean_squared_error\n",
+    "from sklearn.model_selection import train_test_split"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Variables globales"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "RANDOM_SEED = 566876\n",
+    "NB_TREES = 1000\n",
+    "NB_TREES_EXTRACTED = 10"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Load jeu de donnée"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "X, y = load_boston(return_X_y=True)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Séparation train_test avec random_state\n",
+    "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = RANDOM_SEED)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Entraînement de la forêt aléatoire"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,\n",
+       "                      max_features='auto', max_leaf_nodes=None,\n",
+       "                      min_impurity_decrease=0.0, min_impurity_split=None,\n",
+       "                      min_samples_leaf=1, min_samples_split=2,\n",
+       "                      min_weight_fraction_leaf=0.0, n_estimators=1000,\n",
+       "                      n_jobs=None, oob_score=False, random_state=566876,\n",
+       "                      verbose=0, warm_start=False)"
+      ]
+     },
+     "execution_count": 5,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "regressor = RandomForestRegressor(n_estimators=NB_TREES, random_state = RANDOM_SEED)\n",
+    "\n",
+    "regressor.fit(X_train, y_train)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Accès à la la liste des arbres\n",
+    "\n",
+    "tree_list = regressor.estimators_"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Création de la matrice des prédictions de chaque arbre"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# L'implémentation de scikit-learn est un peu différente que celle vue en réunion, D est de même taille que X \n",
+    "# et chaque élément est composé de d signaux, d'où la création suivante de D où on créé une liste pour chaque\n",
+    "# élément comprenant les valeurs prédites par chaque arbre\n",
+    "\n",
+    "D = [[tree.predict([elem])[0] for tree in tree_list] for elem in X_train]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "OrthogonalMatchingPursuit(fit_intercept=True, n_nonzero_coefs=10,\n",
+       "                          normalize=True, precompute='auto', tol=None)"
+      ]
+     },
+     "execution_count": 8,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "omp = OrthogonalMatchingPursuit(n_nonzero_coefs=NB_TREES_EXTRACTED)\n",
+    "omp.fit(D, y_train)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "metadata": {
+    "scrolled": true
+   },
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "array([ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.06486338,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.16376832,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.25655983,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.12857285,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.05837478,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.11803001,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.08589735,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.07812359,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.12046293,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        , -0.04290121,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,\n",
+       "        0.        ,  0.        ,  0.        ,  0.        ,  0.        ])"
+      ]
+     },
+     "execution_count": 9,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Matrice avec poids de chaque arbre\n",
+    "\n",
+    "omp.coef_"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Calcul des résultats des différentes méthodes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Résultat de la forêt de base"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "6.079654025784307"
+      ]
+     },
+     "execution_count": 10,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "mean_squared_error(regressor.predict(X_test), y_test)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Résultat de la forêt extraite avec l'OMP, où chaque arbre est multiplié par son poids"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "y_pred = [sum([tree_list[i].predict([elem])[0] * omp.coef_[i] for i in range(NB_TREES)]) for elem in X_test]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 12,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "6.420683680052282"
+      ]
+     },
+     "execution_count": 12,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "mean_squared_error(y_pred, y_test)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Résultat de la forêt extraite avec l'OMP, où on prends la moyenne des arbres extraits"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "6.728623529411763"
+      ]
+     },
+     "execution_count": 13,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "y_pred = [mean([tree_list[i].predict([elem])[0] for i in range(NB_TREES) if omp.coef_[i] != 0])for elem in X_test]\n",
+    "mean_squared_error(y_pred, y_test)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Résultat d'une forêt avec le même nombre d'arbre que le nombre d'arbre extrait"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,\n",
+       "                      max_features='auto', max_leaf_nodes=None,\n",
+       "                      min_impurity_decrease=0.0, min_impurity_split=None,\n",
+       "                      min_samples_leaf=1, min_samples_split=2,\n",
+       "                      min_weight_fraction_leaf=0.0, n_estimators=10,\n",
+       "                      n_jobs=None, oob_score=False, random_state=566876,\n",
+       "                      verbose=0, warm_start=False)"
+      ]
+     },
+     "execution_count": 14,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "regressor_small = RandomForestRegressor(n_estimators=NB_TREES_EXTRACTED, random_state=RANDOM_SEED)\n",
+    "regressor_small.fit(X_train, y_train)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "6.794841176470589"
+      ]
+     },
+     "execution_count": 15,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "mean_squared_error(regressor_small.predict(X_test), y_test)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.7.4"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
+%% Cell type:markdown id: tags:
+
+# Groupe de travail
+
+Le but de ce notebook est de tester l'idée de réduction des random forest
+
+%% Cell type:markdown id: tags:
+
+## Import scikit-learn
+
+%% Cell type:code id: tags:
+
+``` python
+from statistics import mean
+
+from sklearn.datasets import load_boston, load_breast_cancer
+from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
+from sklearn.linear_model import OrthogonalMatchingPursuit
+from sklearn.metrics import mean_squared_error
+from sklearn.model_selection import train_test_split
+```
+
+%% Cell type:markdown id: tags:
+
+## Variables globales
+
+%% Cell type:code id: tags:
+
+``` python
+RANDOM_SEED = 566876
+NB_TREES = 1000
+NB_TREES_EXTRACTED = 10
+```
+
+%% Cell type:markdown id: tags:
+
+## Load jeu de donnée
+
+%% Cell type:code id: tags:
+
+``` python
+X, y = load_boston(return_X_y=True)
+```
+
+%% Cell type:code id: tags:
+
+``` python
+# Séparation train_test avec random_state
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = RANDOM_SEED)
+```
+
+%% Cell type:markdown id: tags:
+
+## Entraînement de la forêt aléatoire
+
+%% Cell type:code id: tags:
+
+``` python
+regressor = RandomForestRegressor(n_estimators=NB_TREES, random_state = RANDOM_SEED)
+
+regressor.fit(X_train, y_train)
+```
+
+%% Output
+
+    RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
+                          max_features='auto', max_leaf_nodes=None,
+                          min_impurity_decrease=0.0, min_impurity_split=None,
+                          min_samples_leaf=1, min_samples_split=2,
+                          min_weight_fraction_leaf=0.0, n_estimators=1000,
+                          n_jobs=None, oob_score=False, random_state=566876,
+                          verbose=0, warm_start=False)
+
+%% Cell type:code id: tags:
+
+``` python
+# Accès à la la liste des arbres
+
+tree_list = regressor.estimators_
+```
+
+%% Cell type:markdown id: tags:
+
+## Création de la matrice des prédictions de chaque arbre
+
+%% Cell type:code id: tags:
+
+``` python
+# L'implémentation de scikit-learn est un peu différente que celle vue en réunion, D est de même taille que X
+# et chaque élément est composé de d signaux, d'où la création suivante de D où on créé une liste pour chaque
+# élément comprenant les valeurs prédites par chaque arbre
+
+D = [[tree.predict([elem])[0] for tree in tree_list] for elem in X_train]
+```
+
+%% Cell type:code id: tags:
+
+``` python
+omp = OrthogonalMatchingPursuit(n_nonzero_coefs=NB_TREES_EXTRACTED)
+omp.fit(D, y_train)
+```
+
+%% Output
+
+    OrthogonalMatchingPursuit(fit_intercept=True, n_nonzero_coefs=10,
+                              normalize=True, precompute='auto', tol=None)
+
+%% Cell type:code id: tags:
+
+``` python
+# Matrice avec poids de chaque arbre
+
+omp.coef_
+```
+
+%% Output
+
+    array([ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.06486338,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.16376832,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.25655983,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.12857285,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.05837478,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.11803001,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.08589735,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.07812359,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.12046293,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        , -0.04290121,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
+            0.        ,  0.        ,  0.        ,  0.        ,  0.        ])
+
+%% Cell type:markdown id: tags:
+
+## Calcul des résultats des différentes méthodes
+
+%% Cell type:markdown id: tags:
+
+### Résultat de la forêt de base
+
+%% Cell type:code id: tags:
+
+``` python
+mean_squared_error(regressor.predict(X_test), y_test)
+```
+
+%% Output
+
+    6.079654025784307
+
+%% Cell type:markdown id: tags:
+
+### Résultat de la forêt extraite avec l'OMP, où chaque arbre est multiplié par son poids
+
+%% Cell type:code id: tags:
+
+``` python
+y_pred = [sum([tree_list[i].predict([elem])[0] * omp.coef_[i] for i in range(NB_TREES)]) for elem in X_test]
+```
+
+%% Cell type:code id: tags:
+
+``` python
+mean_squared_error(y_pred, y_test)
+```
+
+%% Output
+
+    6.420683680052282
+
+%% Cell type:markdown id: tags:
+
+### Résultat de la forêt extraite avec l'OMP, où on prends la moyenne des arbres extraits
+
+%% Cell type:code id: tags:
+
+``` python
+y_pred = [mean([tree_list[i].predict([elem])[0] for i in range(NB_TREES) if omp.coef_[i] != 0])for elem in X_test]
+mean_squared_error(y_pred, y_test)
+```
+
+%% Output
+
+    6.728623529411763
+
+%% Cell type:markdown id: tags:
+
+### Résultat d'une forêt avec le même nombre d'arbre que le nombre d'arbre extrait
+
+%% Cell type:code id: tags:
+
+``` python
+regressor_small = RandomForestRegressor(n_estimators=NB_TREES_EXTRACTED, random_state=RANDOM_SEED)
+regressor_small.fit(X_train, y_train)
+```
+
+%% Output
+
+    RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
+                          max_features='auto', max_leaf_nodes=None,
+                          min_impurity_decrease=0.0, min_impurity_split=None,
+                          min_samples_leaf=1, min_samples_split=2,
+                          min_weight_fraction_leaf=0.0, n_estimators=10,
+                          n_jobs=None, oob_score=False, random_state=566876,
+                          verbose=0, warm_start=False)
+
+%% Cell type:code id: tags:
+
+``` python
+mean_squared_error(regressor_small.predict(X_test), y_test)
+```
+
+%% Output
+
+    6.794841176470589