Changes

Marie Candito · 18e3d886
--- a/tokenisation.md
+++ b/tokenisation.md
 **`THIS PAGE BELONGS TO THE` _`PUBLIC`_ `DOC OF PARSEME-FR`**

-Questions relatives à la tokenisation
+Interaction des annotations de MWEs avec la tokenisation
 ---------

 [Retour au guide d'annotation](Guide-annotation-ep-en)
 
-Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises. 
-Les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*". 
+Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises, mais nous faisons une annotation permettant un passage facile à d'autres tokenisations.
+
+En particulier, les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*". 
 Il existe cependant une exception pour quelques cas réguliers comme VERBE-t-CLITIQUE, où la tokenisation sépare VERBE / -t-CLITIQUE.


@@ -26,8 +27,7 @@ A l'inverse, les nombres sont parfois formés de plusieurs tokens. Par exemple,
 Prépositions contractées
 ---

-La tokenization actuelle désamalgame les prépositions contractées. Par exemple dans "j'ai vu Paul au cours du match" , "au" est décomposé en "à" + "le".
-**Dans ce cas, on n'utilise jamais l'amalgame comme composé d'une EP ou d'une EN, mais seulement les mots qui le composent.**
+Sur une tokenisation à la UD, qui désamalgame les prépositions contractées (par exemple dans "j'ai vu Paul au cours du match" , "au" est décomposé en "à" + "le"), **on n'utilise jamais l'amalgame comme composé d'une EP ou d'une EN, mais seulement les mots qui le composent.**

 Mais à noter que l'amalgame est affiché sous FLAT immédiatement avant les mots qui le composent.
 Donc pour l'exemple, on verra sous FLAT:
@@ -65,5 +65,6 @@ sous la forme d'une plage de mots:**.

 10 match

-
+Sur une tokenisation avec amalgames, on utilise une numérotation pour indiquer quel composant du token amalgamé fait partie de l'EP.
+Par exemple, pour une annotation sur "au" (si pas décomposé en "à" + "le"), où l'on voudrait ne prendre que la préposition, on utilise NUM.1 avec NUM l'ID du MWE.