... | ... | @@ -3,7 +3,7 @@ Questions relatives à la tokenisation |
|
|
|
|
|
[Retour au guide d'annotation](Guide-annotation-ep-en)
|
|
|
|
|
|
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises. **AGATA (1/06): Les règles génériques de la [tokenisation de la shared task](https://typo.uni-konstanz.de/parseme/index.php/2-general/153-parseme-shared-task-segmentation-issues) considèrent le tiret comme séparateur. Ou alors on veut dire que les règles pour la ST en français sont spécifiques, mais sont-elles définies quelque part?**
|
|
|
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises.
|
|
|
Les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*".
|
|
|
Il existe cependant une exception pour quelques cas réguliers comme VERBE-t-CLITIQUE, où la tokenisation sépare VERBE / -t-CLITIQUE.
|
|
|
|
... | ... | |