Changes

Carlos Ramisch · 59ef0d1b
--- a/tokenisation.md
+++ b/tokenisation.md
+Questions relatives à la tokenisation
+---------
+
+[Retour au guide d'annotation](Guide-annotation-ep-en)
+
+Nous travaillons avec la tokenisation utilisée lors de la Shared Task Parseme (Savary et al. 2017) pour les données françaises. **AGATA (1/06): Les règles génériques de la [tokenisation de la shared task](https://typo.uni-konstanz.de/parseme/index.php/2-general/153-parseme-shared-task-segmentation-issues) considèrent le tiret comme séparateur. Ou alors on veut dire que les règles pour la ST en  français sont spécifiques, mais sont-elles définies quelque part?**
+Les tirets et apostrophes apparaissant au milieu de lettres ou chiffres n'ont pas été séparés. Donc par exemple "*peut-être*", "*aujourd'hui*" apparaît comme un seul token, mais également "*restaurateur-hotelier*" "*Paris-Madrid*". 
+Il existe cependant une exception pour quelques cas réguliers comme VERBE-t-CLITIQUE, où la tokenisation sépare VERBE / -t-CLITIQUE.
+
+
+On décide, dans le cas de tirets et apostrophes apparaissant au milieu d'un token du corpus, de faire comme si la tokenisation avait séparé le token en plusieurs tokens, et d'appliquer les tests d'expressions polylexicales.
+Ainsi on obtient que:
+- _aujourd'hui_ doit être marqué comme EP
+- _peut-être_ également
+- _-t-il_ ou plus généralement _-t-CLITIQUE_  est à marquer comme EP
+
+En revanche "*restaurateur-hotelier*" n'est pas une EP.
+
+Le cas "*Paris-Madrid*" est plus épineux car Paris et Madrid désignent deux entités nommées différentes.
+Dans ce cas, on n'a pas de solution pour annoter chacune des 2 entités. On se contente d'annoter une entité globale, à la condition que les deux entités reliées par un tiret soient du même type (comme c'est le cas ici LOC). SI la tokenization du corpus évolue, il faudra reprendre manuellement le cas de tokens remplacés par plusieurs tokens dans la nouvelle tokenization, pour éventuellement ajouter des annotations d'EN.
+
+A l'inverse, les nombres sont parfois formés de plusieurs tokens. Par exemple, "2 000" est considéré comme deux tokens. On ne les annote pas comme EP.
+
+Prépositions contractées
+---
+
+La tokenization actuelle désamalgame les prépositions contractées. Par exemple dans "j'ai vu Paul au cours du match" , "au" est décomposé en "à" + "le".
+**Dans ce cas, on n'utilise jamais l'amalgame comme composé d'une EP ou d'une EN, mais seulement les mots qui le composent.**
+
+Mais à noter que l'amalgame est affiché sous FLAT immédiatement avant les mots qui le composent.
+Donc pour l'exemple, on verra sous FLAT:
+
+"J' ai vu Paul au à le cours du de le match".
+
+Pour annoter par exemple "au cours [de]", il faudra annoter:
+
+"J' ai vu Paul au **à le cours** du [de] le match".
+
+Rem: cette visualisation sous FLAT provient de la lecture imparfaite du format ConLL-u, qui conserve l'amalgame 
+sous la forme d'une plage de mots:**. 
+
+1  j'
+
+2  ai
+
+3  vu
+
+4  Paul
+
+**5-6 au**
+
+5 à
+
+6 le
+
+7 cours
+
+**8-9 du**
+
+8 de
+
+9  le
+
+10 match
+
+
+