... | ... | @@ -7,11 +7,13 @@ Guide d'annotation du projet PARSEME-FR - v1.0 |
|
|
|
|
|
Le WP1 du projet PARSEME-FR est dédié à l'annotation des expressions polylexicales.
|
|
|
|
|
|
Pour les expressions nominales, on privilégie comme distinction première la distinction entre les expressions qui, dans leur emploi le plus standard, dénomment directement une entité particulière et pas une classe d'entités (prototypiquement un "nom propre", par exemple le nom d'une personne, _Anna Lapeyre_) versus les séquences désignant un référant via une description "classifiante" (par exemple, _une femme en train de couper du pain_, _la députée dont je te parlais hier_), où il s'agit de repérer celles qui sont des expressions polylexicales car idiosyncratiques dans leur combinaison (il a perdu sa _carte bleue_).
|
|
|
Pour les **expressions polylexicales nominales**, on privilégie comme distinction première la distinction entre les expressions qui, dans leur emploi le plus standard, dénomment directement une entité particulière et pas une classe d'entités (prototypiquement un "nom propre", par exemple le nom d'une personne, _Anna Lapeyre_) versus les séquences désignant un référant via une description "classifiante" (par exemple, _une femme en train de couper du pain_, _la députée dont je te parlais hier_), où il s'agit de repérer celles qui sont des expressions polylexicales car idiosyncratiques dans leur combinaison (il a perdu sa _carte bleue_).
|
|
|
|
|
|
Bien que cette distinction entre dénomination directe vs par description classifiante soit plus une distinction logique que linguistique, on la juge utile d'un point de vue applicatif et utile dans la manière d'appliquer les tests. En effet malgré des similitudes dans certains tests, on ne va pas forcément insister sur les mêmes difficultés dans les deux cas.
|
|
|
|
|
|
On a ainsi organisé le guide en deux sous-parties, une pour les noms d'entités particulières (le guide des "entités nommées", ci-après **EN**, restreint en outre à certains types sémantiques pré-définis: personne, organisation, lieu, produit humain et évènement) et un autre guide pour tous les autres cas (ci-après simplement **EP**). Les catégories d'entités nommées retenues sont celles fréquemment identifiées via un nom propre (notion résumée comme la "désignation d’une entité précise par le biais d’une description dont le sens joue un rôle mineur par rapport à la dénomination, opérant directement, du référent" (Ehrmann, 2008)).
|
|
|
Les **expressions polylexicales verbales** ont été traitées à part, dans le projet PARSEME international, dans le cadre de la production des corpus pour la [_PARSEME shared task 1.1 (2018)_](http://multiword.sourceforge.net/sharedtask2018/). Ainsi, nous avons adopté le guide externe [PARSEME v.1.1](http://parsemefr.lif.univ-mrs.fr/parseme-st-guidelines/1.1) pour l'identification des expressions verbales. Les membres du projet français PARSEME-FR ont été très impliqués dans le projet international PARSEME et notamment dans la rédaction du guide d'annotation d'expressions verbales. Par conséquent, les deux guides, PARSEME (expressions verbales) et PARSEME-FR (expressions non verbales) sont compatibles et similaires dans l'esprit.
|
|
|
|
|
|
On a ainsi organisé le présent guide en deux sous-parties, une pour les noms d'entités particulières (le guide des "entités nommées", ci-après **EN**, restreint en outre à certains types sémantiques pré-définis: personne, organisation, lieu, produit humain et évènement) et un autre guide pour les expressions non verbales (ci-après simplement **EP**). Les catégories d'entités nommées retenues sont celles fréquemment identifiées via un nom propre (notion résumée comme la "désignation d’une entité précise par le biais d’une description dont le sens joue un rôle mineur par rapport à la dénomination, opérant directement, du référent" (Ehrmann, 2008)).
|
|
|
|
|
|
Le guide est donc découpé comme suit:
|
|
|
- [Notations](notations)
|
... | ... | @@ -22,8 +24,6 @@ Le guide est donc découpé comme suit: |
|
|
|
|
|
Nous mettons aussi à disposition une liste de [cas difficiles tranchés grâce aux critères](cas_deja_traites)
|
|
|
|
|
|
|
|
|
|
|
|
La marche à suivre générale pour annoter est la suivante:
|
|
|
|
|
|
**Pour une séquence de plusieurs tokens, pour laquelle on a l'intuition que le sens de l'expression est obtenu de manière idiosyncratique et/ou qu'il y a sélection non libre des parties (au niveau morphologique ou lexical, des substitutions normalement faisables ne sont pas possibles ou produisent un changement de sens inattendu), on suit l'arbre suivant:**
|
... | ... | |