|
|
**`THIS PAGE BELONGS TO THE` _`PUBLIC`_ `DOC OF PARSEME-FR`**
|
|
|
|
|
|
Questions relatives à la tokenisation
|
|
|
Interaction des annotations de MWEs avec la tokenisation
|
|
|
---------
|
|
|
|
|
|
[Retour au guide d'annotation](Guide-annotation-ep-en)
|
|
|
|
|
|
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises, mais nous faisons une annotation permettant un passage facile à d'autres tokenisations.
|
|
|
|
|
|
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises.
|
|
|
Les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*".
|
|
|
En particulier, les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*".
|
|
|
Il existe cependant une exception pour quelques cas réguliers comme VERBE-t-CLITIQUE, où la tokenisation sépare VERBE / -t-CLITIQUE.
|
|
|
|
|
|
|
... | ... | @@ -26,8 +27,7 @@ A l'inverse, les nombres sont parfois formés de plusieurs tokens. Par exemple, |
|
|
Prépositions contractées
|
|
|
---
|
|
|
|
|
|
La tokenization actuelle désamalgame les prépositions contractées. Par exemple dans "j'ai vu Paul au cours du match" , "au" est décomposé en "à" + "le".
|
|
|
**Dans ce cas, on n'utilise jamais l'amalgame comme composé d'une EP ou d'une EN, mais seulement les mots qui le composent.**
|
|
|
Sur une tokenisation à la UD, qui désamalgame les prépositions contractées (par exemple dans "j'ai vu Paul au cours du match" , "au" est décomposé en "à" + "le"), **on n'utilise jamais l'amalgame comme composé d'une EP ou d'une EN, mais seulement les mots qui le composent.**
|
|
|
|
|
|
Mais à noter que l'amalgame est affiché sous FLAT immédiatement avant les mots qui le composent.
|
|
|
Donc pour l'exemple, on verra sous FLAT:
|
... | ... | @@ -65,5 +65,6 @@ sous la forme d'une plage de mots:**. |
|
|
|
|
|
10 match
|
|
|
|
|
|
|
|
|
Sur une tokenisation avec amalgames, on utilise une numérotation pour indiquer quel composant du token amalgamé fait partie de l'EP.
|
|
|
Par exemple, pour une annotation sur "au" (si pas décomposé en "à" + "le"), où l'on voudrait ne prendre que la préposition, on utilise NUM.1 avec NUM l'ID du MWE.
|
|
|
|