... | ... | @@ -10,18 +10,19 @@ Identification manuelle des expressions polylexicales non verbales |
|
|
<!-- [[_TOC_]]
|
|
|
-->
|
|
|
|
|
|
Le but de ce document est de donner une méthodologie simple pour aider les annotateurs experts à identifier et catégoriser morphosyntaxiquement les expressions polylexicales non verbales d'un texte. Une expression polylexicale (EP) est une séquence de mots avec un certain degré de non-compositionalité. Nous précisons "non verbales" parce que les expressions verbales ont été annotées en utilisant le guide multilingue de [PARSEME v1.1](parsemefr.lif.univ-mrs.fr/parseme-st-guidelines/1.1).
|
|
|
Le but de ce document est de donner une méthodologie simple pour aider les annotateurs experts à identifier les expressions polylexicales non verbales d'un texte. Une expression polylexicale (EP) est une séquence de mots avec un certain degré de non-compositionalité. Nous précisons "non verbales" parce que les expressions verbales ont été annotées en utilisant le guide multilingue de [PARSEME v1.1](parsemefr.lif.univ-mrs.fr/parseme-st-guidelines/1.1).
|
|
|
|
|
|
Le principe général de ce guide est que sauf mention contraire chaque critère utilisé est un critère **suffisant** pour classer une séquence comme EP.
|
|
|
Ainsi pour expression candidate c déjà identifiée comme n'étant pas une entité nommée (cf. le [guide chapeau]()), on lui applique successivement différents tests de critères et dès lors qu'un des critères marche, on marque la séquence comme une EP, en indiquant le critère utilisé.
|
|
|
|
|
|
1. On identifie par l'intuition une séquence dans le texte susceptible d'être une EP
|
|
|
2. On la catégorise morphosyntaxiquement.
|
|
|
3. On lui applique successivement différents critères (certains étant dépendants de la catégorie morphosyntaxique)
|
|
|
4. Dès lors qu'un des critères marche, on marque la séquence comme une EP, en indiquant le critère utilisé.
|
|
|
<!--**Attention**: on prend pour convention d'appliquer les critères spécifiques (OP, seV, CL) en premier.-->
|
|
|
<!--5. **A TESTER**: si aucun critère strict ne fonctionne, mais que le critère LEXflou fonctionne, alors on marque LEXflou (ce qui permettra de vérifier les cas où LEXflou est le seul critère utilisable)-->
|
|
|
|
|
|
L'application de critères à certaines [entités nommées](ep_et_en) est détaillée dans une page spécifique.
|
|
|
<!--L'application de critères à certaines [entités nommées](ep_et_en) est détaillée dans une page spécifique.-->
|
|
|
|
|
|
On notera que sauf mention contraire, chaque critère est suffisant à classer une séquence comme EP. Le lexique des EP ainsi obtenues devra contenir un recensement de tous les critères vérifiés par une EP, et des sous-lexiques pourront être extraits, en étant plus ou moins restrictifs sur les critères nécessaires, et leur nombre. Cette méthodologie est voulue comme une solution au problème notoire d'identification des EP, une fois sorti des cas d'école.
|
|
|
<!-- (déjà dit)On notera que sauf mention contraire, chaque critère est suffisant à classer une séquence comme EP. -->
|
|
|
<!-- (pas fait finalement) Le lexique des EP ainsi obtenues devra contenir un recensement de tous les critères vérifiés par une EP, et des sous-lexiques pourront être extraits, en étant plus ou moins restrictifs sur les critères nécessaires, et leur nombre. -->
|
|
|
L'utilisation de critères suffisants est voulue comme une solution au problème notoire d'identification des EP, une fois sorti des cas d'école. Il n'y a pratiquement aucun critère qui soit une condition nécessaire. Une solution classique est d'imposer qu'un certain nombre de critères soient satisfaits pour conclure à EP, mais ce nombre est arbitraire, et le poids de chaque critère est difficile à juger. Nous avons donc préféré considérer qu'un seul critère est suffisant. Une EP pourra satisfaire un ou plusieurs critères, et on obtient ainsi un lexique d'EPs ayant différents degrés d'idiomaticité.
|
|
|
|
|
|
|
|
|
Nous avons recensé [quelques cas déjà tranchés grâce aux critères ci-dessous](cas_deja_traites), pour accélérer et uniformiser l'annotation.
|
|
|
|
... | ... | |