Skip to content
Snippets Groups Projects

clean scripts

Merged Charly Lamothe requested to merge wip_clean_scripts into master

@leo.bouscarrat @luc.giffon

Il reste encore à ajouter plus de plots dans compute_results.py (pour l'instant il y a un exemple qui plot les loss sur train/dev/test).

Question : Dans le notebook il y a une version de la prédiction calculée avec une division de la somme des poids, et une version sans. C'était laquelle la bonne déjà ?

EDIT 1 - Exemple d'utilisation :

python code/train.py --dataset_name=california_housing --normalize_D --dataset_normalizer=standard --extracted_forest_size 10 20 30 --random_seed_number=2
python code/compute_results.py --experiment_ids 1
Edited by Charly Lamothe

Merge request reports

Merged by Charly LamotheCharly Lamothe 5 years ago (Nov 29, 2019 3:52pm UTC)

Loading

Activity

Filter activity
  • Approvals
  • Assignees & reviewers
  • Comments (from bots)
  • Comments (from users)
  • Commits & branches
  • Edits
  • Labels
  • Lock status
  • Mentions
  • Merge request status
  • Tracking
  • Charly Lamothe changed the description

    changed the description

  • Luc Giffon
  • Charly Lamothe added 1 commit

    added 1 commit

    • ec569ad5 - - Remove useless error handling files;

    Compare with previous version

  • Luc Giffon
  • Leo Bouscarrat
    • Une question qu'il faut se poser aussi c'est qu'est-ce qu'on veut obtenir quand on fait un expérence. Les mêmes courbes que je regardai d'autre ?

    • C'est pour ça que j'ai pas calculé toutes les courbes que tu avais fait dans compute_results.py, faudrait qu'on définisse ce qu'on veut afficher.

      Edited by Charly Lamothe
    • @leo.bouscarrat Look les commentaires en bas du fichier compute_results.py et dis moi ce que t'en penses stp. Les fichiers de config correspondant au stage 3 sont dans le dossier experiments/boston/stage3 (pas opti car y'a pas les results des stage 1 et 2). Tu en es où dans le gridsearch bayesien ?

    • Please register or sign in to reply
  • Charly Lamothe added 1 commit

    added 1 commit

    • a6a476ce - Save all attributes of model_raw_results automatically

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • e0abe67e - Remove useless sorting in resolve_experiment_id

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • a5f920e0 - Add matplotlib to the requirements file

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • 9199d9bb - Add an option to disable the progress bars

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • 28b804c6 - Train the forest on train and OMP on dev OR train both the forest and OMP on train+dev

    Compare with previous version

    • Owner

      Du coup c'est l'idée mais dans le cas"concatenate", ya une copie complète du jeu de donnée en ram. Ça devrait pas être un problème vu la taille de nos données mais c'est pas très propre et sous efficient. Il faudrait mieux utiliser une seule variable pour les deux. Donc xomp=xforest et yomp=yforest. Je crois.

    • Oui c'est ça merci, je viens de changer avec d89d9d52.

    • Please register or sign in to reply
  • Charly Lamothe added 1 commit

    added 1 commit

    • fc19c39e - Add comments on compute_results.py file

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • d67e49c8 - Add some comments in plot_losses

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • d89d9d52 - Remove two useless concatenate in trainer.py to save space and time

    Compare with previous version

  • Charly Lamothe added 4 commits

    added 4 commits

    • 4a5324ba - Add elements on requirements.txt
    • 553764d7 - Add png to gitignore
    • eefd7b6b - - Fix weight_density. TODO: add legend (colored by seed)
    • d45cbb42 - Merge branch '5-add-plots-2' into 'wip_clean_scripts'

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • 7455fd98 - Replace use_dev_subset by subsets_used parameter, in order to specify more...

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • 0fce0319 - Add the weights normalization parameter (but not implemented yet)

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • 8b3a6c49 - Use OMP to compute the prediction instead of doing it manually (same results)

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • 708b1731 - Add comments in weight_density function and faster the zero trimming

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • cb0030d8 - - Compute each computations of a given seed in a dedicated job;

    Compare with previous version

  • Charly Lamothe added 2 commits

    added 2 commits

    • 789a11a6 - - Add experiment_configuration parameter to run an experiment from a json...
    • 211dc83a - Fix a spelling mistake in train.py.

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • 9830bbe0 - Add TODO list of the figure scheme in compute_results.py

    Compare with previous version

  • Charly Lamothe added 1 commit

    added 1 commit

    • 9a9a3bff - Introduce the notion of "stage" in the experiments (see TODO comment in...

    Compare with previous version

  • Charly Lamothe added 3 commits

    added 3 commits

    • bf5803b6 - Add functions to do bayesian hyperparameters search
    • c66d117d - When training, look if there is bayesian search results, if yes use this....
    • 3e8f934b - - Fix conflicts;

    Compare with previous version

  • Charly Lamothe added 10 commits

    added 10 commits

    • bc5a83b6 - remove useless experiment json files
    • 3f5cdf68 - Big changes: Create intermediate classes OMPForest and SingleOmpForest for...
    • f7e772d9 - add experiments directory and print score on train and dev
    • 065988a4 - stop tracking experiments dir
    • 5e50bbaa - add multiclass classifier mais attention ya un bug dans le calcul du score
    • 7bb11288 - solve bug scoring multiclas
    • 94d1388e - - Fix merge conflicts;
    • a86dff87 - - Add missing LOG_PATH in two init files;
    • f866e30d - Clean up some imports
    • a0f7c96f - - Split train function in three distinct functions;

    Compare with previous version

  • @leo.bouscarrat @luc.giffon J'ai avancé sur le sync des trois branches, mais il reste encore quelques trucs à faire. J'ai modifié le fichier TODO.md, mais voilà :

    • Fix pickle loading of ModelRawResults, because saving the model_object leads import issues.
    • Fix ModelFactory.load function.
    • Fix model results loading in compute_results.py.
    • Check that omp multiclasses classifier is working as expected.
    • In the bayesian search computation, output a different file name depending on the task of the trained model.
    • Check the best params scores of the regressors (neg_mean_squared_error leads to huge negative values).
    • Prepare the json experiment files to run.
    • Fix fetchers in data_loader.py.
    • Organize better results storing (cause right now it's hard to compute easily the plots specified in compute_results.py from the results dir).

    Je peux continuer à en faire quelques un demain, mais si vos suggestions sont le bienvenu. J'ai rebase les deux branches sur celle ci, au cas où on en aurait encore besoin. J'aimerai qu'on règle les 6 premiers points avant de merger cette branche avec master.

    Edited by Charly Lamothe
  • Ok merci! C'était pas trop compliqué le merge? Pas trop de conflits?

    J'ai fait le binaryclassifier en premier pour me mettre dans le truc, mais en fait le multiclass devrait aussi marcher pour la classification binaire. Du coup je réalise que la classe "singleompforest" est certainement inutile. A voir.

    Pour le multiclass classifier: pour l'instant ça marche a peu près mais je crois que si plusieurs forêts pensent que l'exemple est dans leur classe, le truc va pas forcément bien se comporter.

    Peut-être que je m'y met aujourd'hui. a+

  • Y'a eu quelques conflits chiants mais sinon ça a été.

  • * Check the best params scores of the regressors (neg_mean_squared_error leads to huge negative values).

    C'est normal sur diabetes il me semble, c'est lié au dataset.

  • Loading
  • Loading
  • Loading
  • Loading
  • Loading
  • Loading
  • Loading
  • Loading
  • Loading
  • Loading
  • Please register or sign in to reply
    Loading