THIS PAGE BELONGS TO THE
PUBLIC
DOC OF PARSEME-FR
Retour à la page d'accueil du wiki
PARSEME-FR annotation guidelines - v1.0
- Notations
- Interaction with tokenization
- Top decision tree, which serves to direct the annotator to either
Introduction
Nominal expressions
Pour les expressions polylexicales nominales, on considère une première distinction concernant la convention de nommage liant l'expression et la ou les entités auxquelles elle peut référer. L’intuition de départ est que
- (1) certaines unités polylexicales nominales fonctionnent comme des noms directs d’entités spécifiques (par ex. Anna Duval)
- (2) versus comme le nom d’un concept, qui peut être utilisé pour désigner des instances de ce concept (arme blanche).
Dans ce deuxième cas, connaître les caractéristiques définitoires du concept permet de l’utiliser pour de futures instances, sans nouvel apprentissage. Alors que pour utiliser le nom “Anna Duval” pour une nouvelle personne, il faut apprendre une nouvelle convention de nommage (que cette personne a bien reçu ce nom). De cette différence découle que l’on peut avoir un intérêt à coder un nom de concept dans un lexique, mais moins un nom d’entité spécifique.
Cette distinction entre nom d'entité (Anna Duval) et nom de concept (par ex. arme blanche) correspond à première vue à la distinction entre nom propre et nom commun. La distinction est facile à faire lorsque le nom d'entité est composé d'éléments lexicaux qui sont uniquement utilisés uniquement comme nom direct d'entités (par exemple les prénoms, les noms de famille). C'est ainsi que M. Erhman résume la notion de nom propre comme la "désignation d’une entité précise par le biais d’une description dont le sens joue un rôle mineur par rapport à la dénomination, opérant directement, du référent" (Ehrmann, 2008)). Mais une abondante littérature montre que la distinction nom propre / nom commun s'avère en réalité difficile à caractériser linguistiquement (voir en particulier Kleiber, 1981, Ehrmann 2008 pour un état de l'art). En effet au sein des noms directs d'entité, on peut distinguer:
- (1a) des noms d'entités faits d'éléments lexicaux entièrement dédiés au nommage direct d'entité (pour le dire vite: des noms propres), comme Italie, Anna Duval, Microsoft
- (1b) des noms d'entités comme l'Association pour le traitement automatique des langues, le Jardin des Plantes,
- qui d'un côté ont clairement une base descriptive, et donc la convention de nommage utilise les propriétés définitoires des éléments lexicaux composant ces noms
- mais pour lesquels, d'un autre côté, l'établissement de la convention de nommage entre le nom et l'entité est sociologiquement typique d'un nom propre (ces entités sont baptisées ainsi).
- (1c) et aussi des noms abstraits d’entités uniques non instanciables tels que des noms abstraits simples (“taxidermie”) ou des termes polylexicaux (“géométrie euclidienne”), que l'on ne classe pas traditionnellement comme noms propres, mais qui peuvent également être vus comme le nom direct d'une entité spécifique, dont les locuteurs doivent apprendre la convention de nommage
En TAL, seul les cas (1a) et (1b) relèvent de ce qui est appelé entité nommée (il est notoire que le terme "entité nommée" ajoute de la confusion, cf. il désigne l'entité et pas le nom. L'expression linguistique Anna Duval est un nom d'entité et pas une entité nommée, mais nous conservons dans toute la suite le terme consacré "entité nommée"). En outre, les entités nommées en TAL sont associées à un type sémantique prédéfini.
Dans les annotations PARSEME-FR, nous avons souhaité conserver la distinction claire entre:
- les cas (1a)/(1b) d'un côté, annotés comme entités nommées (EN), via un guide spécifique
- plus précisément nous ne considérons que certains types sémantiques d'entités nommées: PERSON, ORGANIZATION, LOCATION, HUMAN PRODUCT, EVENT, qui se trouvent être celles fréquemment identifiées via un nom propre.
- en outre, pour les entités nommées, nous considérons aussi bien le cas polylexical (Anna Duval) que le cas mot simple (Italie). En effet d'un point de vue applicatif, il aurait été dommage d'ignorer le cas mot simple
- et les cas (2), annotés comme "expressions polylexicales" (EP), à entendre comme expression polylexicale non EN
Pour les cas de type (1c), les tests linguistiques sont plus proches du cas (2), nous les annotons comme EP.
<-- privilégie comme distinction première la distinction entre les expressions qui, dans leur emploi le plus standard, dénomment directement une entité particulière et pas une classe d'entités (prototypiquement un "nom propre", par exemple le nom d'une personne, Anna Lapeyre) versus les séquences désignant un référant via une description "classifiante" (par exemple, une femme en train de couper du pain, la députée dont je te parlais hier), où il s'agit de repérer celles qui sont des expressions polylexicales car idiosyncratiques dans leur combinaison (il a perdu sa carte bleue).
Bien que cette distinction entre dénomination directe vs par description classifiante soit plus une distinction logique que linguistique, on la juge utile d'un point de vue applicatif et utile dans la manière d'appliquer les tests. En effet malgré des similitudes dans certains tests, on ne va pas forcément insister sur les mêmes difficultés dans les deux cas. -->
Verbal expressions
Les expressions polylexicales verbales ont été traitées à part, dans le projet PARSEME international, dans le cadre de la production des corpus pour la PARSEME shared task 1.1 (2018). Ainsi, nous avons adopté le guide externe PARSEME v.1.1 pour l'identification des expressions verbales. Les membres du projet français PARSEME-FR ont été très impliqués dans le projet international PARSEME et notamment dans la rédaction du guide d'annotation d'expressions verbales. Par conséquent, les deux guides, PARSEME (expressions verbales) et PARSEME-FR (expressions non verbales) sont compatibles et similaires dans l'esprit.
Top decision tree
On a ainsi organisé le présent guide en deux sous-parties, une pour les noms d'entités (le guide des "entités nommées", ci-après EN, restreint en outre à certains types sémantiques pré-définis: personne, organisation, lieu, produit humain et évènement) et un autre guide pour les expressions non verbales (ci-après simplement EP).
Nous mettons aussi à disposition une liste de cas difficiles tranchés grâce aux critères
La marche à suivre générale pour annoter est la suivante:
Pour une séquence de plusieurs tokens, pour laquelle on a l'intuition que le sens de l'expression est obtenu de manière idiosyncratique et/ou qu'il y a sélection non libre des parties (au niveau morphologique ou lexical, des substitutions normalement faisables ne sont pas possibles ou produisent un changement de sens inattendu), on suit l'arbre suivant:
- la séquence a-t-elle une distribution de verbe ?
- NON => continuer
- OUI => aller au guide des EP verbales (lien externe)
- la séquence a-t-elle une distribution de nom ou de syntagme nominal ?
- NON => aller au guide des EP non verbales
- OUI => continuer
- la séquence réfère-t-elle (en contexte) à une entité spécifique ? (c.-à.-d. pas une interprétation générique, de type le chat est un mammifère)
- NON => aller au guide des EP non verbales
- OUI => continuer
- la séquence constitue-t-elle, dans son emploi le plus standard, le nom direct de cette entité spécifique et pas d'une classe d'entités?
- NON => aller au guide des EP non verbales
- OUI ou PAS CLAIR => aller au guide des EN
Pour la question 3. on distingue schématiquement 2 manières d'identifier le référent spécifique de l'expression:
(a) identifier l'entité au moyen des propriétés évoquées par l'expression
(b) récupérer dans sa mémoire l'entité qui "porte ce nom" (i.e. un type particulier de sens instructionnel, d'après Kleiber cité par Ehrmann, 2008). Ce cas est prototypique d'un nom propre, pour lequel on peut citer Ehrmann 2008: "Même composé d’éléments dotés d’un sens lexical, ce qui est essentiel pour le nom propre est la dimension dénominative, prenant le pas sur une dimension descriptive probablement efficiente à l’origine mais dont les locuteurs ont progressivement perdu conscience."
On a cela dit le cas proche de b) suivant:
(b') identifier au moyen d'indices de forme qu'il s'agit d'un nom d'entité spécifique, même si on ne connaît pas l'entité (par exemple pour "Paul Corbère", on repère une forme typique de nom de personne, sans avoir besoin de connaître cette personne).
En outre, on a des situations intermédiaires de séquences ayant les 2 types de comportement (a) et (b/b') (i.e. à la fois dénomination officielle d'une entité, mais avec une base descriptive). Dans ces cas on privilégie l'aspect dénomination (et on code EN). Si on hésite sur le fait qu'une expression fonctionne comme la dénomination directe d'une entité (son "nom") on utilise l'arbre de décision du guide des EN.
Enfin, pour les entités nommées des types sémantiques retenus (personne, organisation, lieu, évènement, produit humain), on inclut également des mots simples, faisant ainsi une entorse au focus sur les expressions polylexicales. Il a semblé en effet utile d'un point de vue applicatif de ne pas distinguer par exemple les mentions M. Pierre Corbère, et Corbère.