clean scripts
Il reste encore à ajouter plus de plots dans compute_results.py (pour l'instant il y a un exemple qui plot les loss sur train/dev/test).
Question : Dans le notebook il y a une version de la prédiction calculée avec une division de la somme des poids, et une version sans. C'était laquelle la bonne déjà ?
EDIT 1 - Exemple d'utilisation :
python code/train.py --dataset_name=california_housing --normalize_D --dataset_normalizer=standard --extracted_forest_size 10 20 30 --random_seed_number=2
python code/compute_results.py --experiment_ids 1
Merge request reports
Activity
assigned to @luc.giffon and unassigned @charly.lamothe
- Resolved by Charly Lamothe
Je suis pas sûr qu'il y est une bonne version pour la manière de calculer les poids. L'idée était justement de comparer les différentes méthodes.
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
- Resolved by Charly Lamothe
C'est pour ça que j'ai pas calculé toutes les courbes que tu avais fait dans compute_results.py, faudrait qu'on définisse ce qu'on veut afficher.
Edited by Charly Lamothe@leo.bouscarrat Look les commentaires en bas du fichier compute_results.py et dis moi ce que t'en penses stp. Les fichiers de config correspondant au stage 3 sont dans le dossier experiments/boston/stage3 (pas opti car y'a pas les results des stage 1 et 2). Tu en es où dans le gridsearch bayesien ?
added 1 commit
- a6a476ce - Save all attributes of model_raw_results automatically
added 1 commit
- e0abe67e - Remove useless sorting in resolve_experiment_id
added 1 commit
- 28b804c6 - Train the forest on train and OMP on dev OR train both the forest and OMP on train+dev
Du coup c'est l'idée mais dans le cas"concatenate", ya une copie complète du jeu de donnée en ram. Ça devrait pas être un problème vu la taille de nos données mais c'est pas très propre et sous efficient. Il faudrait mieux utiliser une seule variable pour les deux. Donc xomp=xforest et yomp=yforest. Je crois.
Oui c'est ça merci, je viens de changer avec d89d9d52.
added 1 commit
- d89d9d52 - Remove two useless concatenate in trainer.py to save space and time
- Resolved by Charly Lamothe
Implémenter omp_forest_classifier, assigné à Léo dans l'issue #4 (closed).
added 1 commit
- 7455fd98 - Replace use_dev_subset by subsets_used parameter, in order to specify more...
added 1 commit
- 0fce0319 - Add the weights normalization parameter (but not implemented yet)
added 1 commit
- 8b3a6c49 - Use OMP to compute the prediction instead of doing it manually (same results)
added 1 commit
- 708b1731 - Add comments in weight_density function and faster the zero trimming
added 1 commit
- cb0030d8 - - Compute each computations of a given seed in a dedicated job;
added 1 commit
- 9830bbe0 - Add TODO list of the figure scheme in compute_results.py
added 1 commit
- 9a9a3bff - Introduce the notion of "stage" in the experiments (see TODO comment in...
added 10 commits
- bc5a83b6 - remove useless experiment json files
- 3f5cdf68 - Big changes: Create intermediate classes OMPForest and SingleOmpForest for...
- f7e772d9 - add experiments directory and print score on train and dev
- 065988a4 - stop tracking experiments dir
- 5e50bbaa - add multiclass classifier mais attention ya un bug dans le calcul du score
- 7bb11288 - solve bug scoring multiclas
- 94d1388e - - Fix merge conflicts;
- a86dff87 - - Add missing LOG_PATH in two init files;
- f866e30d - Clean up some imports
- a0f7c96f - - Split train function in three distinct functions;
Toggle commit list@leo.bouscarrat @luc.giffon J'ai avancé sur le sync des trois branches, mais il reste encore quelques trucs à faire. J'ai modifié le fichier TODO.md, mais voilà :
- Fix pickle loading of ModelRawResults, because saving the model_object leads import issues.
- Fix ModelFactory.load function.
- Fix model results loading in compute_results.py.
- Check that omp multiclasses classifier is working as expected.
- In the bayesian search computation, output a different file name depending on the task of the trained model.
- Check the best params scores of the regressors (neg_mean_squared_error leads to huge negative values).
- Prepare the json experiment files to run.
- Fix fetchers in data_loader.py.
- Organize better results storing (cause right now it's hard to compute easily the plots specified in compute_results.py from the results dir).
Je peux continuer à en faire quelques un demain, mais si vos suggestions sont le bienvenu. J'ai rebase les deux branches sur celle ci, au cas où on en aurait encore besoin. J'aimerai qu'on règle les 6 premiers points avant de merger cette branche avec master.
Edited by Charly LamotheOk merci! C'était pas trop compliqué le merge? Pas trop de conflits?
J'ai fait le binaryclassifier en premier pour me mettre dans le truc, mais en fait le multiclass devrait aussi marcher pour la classification binaire. Du coup je réalise que la classe "singleompforest" est certainement inutile. A voir.
Pour le multiclass classifier: pour l'instant ça marche a peu près mais je crois que si plusieurs forêts pensent que l'exemple est dans leur classe, le truc va pas forcément bien se comporter.
Peut-être que je m'y met aujourd'hui. a+
- Resolved by Charly Lamothe
Tu pourrais faire un point plus précis sur ce qui plante ?
@luc.giffon Il manque trois points à mon message plus haut dans ce thread !3 (comment 2604), mais je pense que c'est assez stable pour merger avec master. T'en penses quoi ?