**`THIS PAGE BELONGS TO THE` _`PUBLIC`_ `DOC OF PARSEME-FR`**
Questions relatives à la tokenisation
Interaction des annotations de MWEs avec la tokenisation
---------
[Retour au guide d'annotation](Guide-annotation-ep-en)
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises.
Les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*".
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises, mais nous faisons une annotation permettant un passage facile à d'autres tokenisations.
En particulier, les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*".
Il existe cependant une exception pour quelques cas réguliers comme VERBE-t-CLITIQUE, où la tokenisation sépare VERBE / -t-CLITIQUE.
...
...
@@ -26,8 +27,7 @@ A l'inverse, les nombres sont parfois formés de plusieurs tokens. Par exemple,
Prépositions contractées
---
La tokenization actuelle désamalgame les prépositions contractées. Par exemple dans "j'ai vu Paul au cours du match" , "au" est décomposé en "à" + "le".
**Dans ce cas, on n'utilise jamais l'amalgame comme composé d'une EP ou d'une EN, mais seulement les mots qui le composent.**
Sur une tokenisation à la UD, qui désamalgame les prépositions contractées (par exemple dans "j'ai vu Paul au cours du match" , "au" est décomposé en "à" + "le"), **on n'utilise jamais l'amalgame comme composé d'une EP ou d'une EN, mais seulement les mots qui le composent.**
Mais à noter que l'amalgame est affiché sous FLAT immédiatement avant les mots qui le composent.
Donc pour l'exemple, on verra sous FLAT:
...
...
@@ -65,5 +65,6 @@ sous la forme d'une plage de mots:**.
10 match
Sur une tokenisation avec amalgames, on utilise une numérotation pour indiquer quel composant du token amalgamé fait partie de l'EP.
Par exemple, pour une annotation sur "au" (si pas décomposé en "à" + "le"), où l'on voudrait ne prendre que la préposition, on utilise NUM.1 avec NUM l'ID du MWE.