@@ -3,7 +3,7 @@ Questions relatives à la tokenisation
...
@@ -3,7 +3,7 @@ Questions relatives à la tokenisation
[Retour au guide d'annotation](Guide-annotation-ep-en)
[Retour au guide d'annotation](Guide-annotation-ep-en)
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises. **AGATA (1/06): Les règles génériques de la [tokenisation de la shared task](https://typo.uni-konstanz.de/parseme/index.php/2-general/153-parseme-shared-task-segmentation-issues) considèrent le tiret comme séparateur. Ou alors on veut dire que les règles pour la ST en français sont spécifiques, mais sont-elles définies quelque part?**
Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises.
Les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*".
Les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*".
Il existe cependant une exception pour quelques cas réguliers comme VERBE-t-CLITIQUE, où la tokenisation sépare VERBE / -t-CLITIQUE.
Il existe cependant une exception pour quelques cas réguliers comme VERBE-t-CLITIQUE, où la tokenisation sépare VERBE / -t-CLITIQUE.