Update tokenisation authored by Marie Candito's avatar Marie Candito
**`THIS PAGE BELONGS TO THE` _`PUBLIC`_ `DOC OF PARSEME-FR`** **`THIS PAGE BELONGS TO THE` _`PUBLIC`_ `DOC OF PARSEME-FR`**
Questions relatives à la tokenisation Interaction des annotations de MWEs avec la tokenisation
--------- ---------
[Retour au guide d'annotation](Guide-annotation-ep-en) [Retour au guide d'annotation](Guide-annotation-ep-en)
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises, mais nous faisons une annotation permettant un passage facile à d'autres tokenisations.
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises. En particulier, les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*".
Les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*".
Il existe cependant une exception pour quelques cas réguliers comme VERBE-t-CLITIQUE, où la tokenisation sépare VERBE / -t-CLITIQUE. Il existe cependant une exception pour quelques cas réguliers comme VERBE-t-CLITIQUE, où la tokenisation sépare VERBE / -t-CLITIQUE.
...@@ -26,8 +27,7 @@ A l'inverse, les nombres sont parfois formés de plusieurs tokens. Par exemple, ...@@ -26,8 +27,7 @@ A l'inverse, les nombres sont parfois formés de plusieurs tokens. Par exemple,
Prépositions contractées Prépositions contractées
--- ---
La tokenization actuelle désamalgame les prépositions contractées. Par exemple dans "j'ai vu Paul au cours du match" , "au" est décomposé en "à" + "le". Sur une tokenisation à la UD, qui désamalgame les prépositions contractées (par exemple dans "j'ai vu Paul au cours du match" , "au" est décomposé en "à" + "le"), **on n'utilise jamais l'amalgame comme composé d'une EP ou d'une EN, mais seulement les mots qui le composent.**
**Dans ce cas, on n'utilise jamais l'amalgame comme composé d'une EP ou d'une EN, mais seulement les mots qui le composent.**
Mais à noter que l'amalgame est affiché sous FLAT immédiatement avant les mots qui le composent. Mais à noter que l'amalgame est affiché sous FLAT immédiatement avant les mots qui le composent.
Donc pour l'exemple, on verra sous FLAT: Donc pour l'exemple, on verra sous FLAT:
...@@ -65,5 +65,6 @@ sous la forme d'une plage de mots:**. ...@@ -65,5 +65,6 @@ sous la forme d'une plage de mots:**.
10 match 10 match
Sur une tokenisation avec amalgames, on utilise une numérotation pour indiquer quel composant du token amalgamé fait partie de l'EP.
Par exemple, pour une annotation sur "au" (si pas décomposé en "à" + "le"), où l'on voudrait ne prendre que la préposition, on utilise NUM.1 avec NUM l'ID du MWE.