THIS PAGE BELONGS TO THE
PUBLIC
DOC OF PARSEME-FR
Retour à la page d'accueil du wiki
PARSEME-FR annotation guidelines - v1.0
- Notations
- Interaction with tokenization
- Top decision tree, which serves to direct the annotator to either:
Introduction
Verbal expressions
Verbal multi-word expressions were the focus of the PARSEME shared task 1.1 (2018), organized within the international PARSEME (COST) project. The PARSEME v1.1 guide for verbal MWEs was designed and used to produce annotations for 20 languages, including French. For PARSEME-FR, we have thus focused on other MWEs (non verbal MWEs). Members of the French spin-off project PARSEME-FR were much involved in the multilingual PARSEME guide, so both guides are similar in spirit.
Nominal expressions : distinguishing "named entities" from other MWEs
For nominal multi-word expressions, we use a primary distinction concerning the naming convention that links the expression and the entity or entities the expression can refer to. The starting intuition is that one can distinguish:
- (1) entity names : some nominal MWEs work as the direct name of a specific entity (for instance Anna Duval)
- (2) versus instantiable concept names, working as the name of a concept, which can be used to refer to instances of this concept (e.g. neural network).
In this latter case, knowing the defining characteristics of the concept enables one to use it for future instances, without requiring to learn any new naming convention. This contrasts with entity names: in order to use the name Anna Duval for a new person, one needs to learn a new naming convention linking the name to this new person, and the characteristics of the person plays almost no role (to be precise, with such an example the name tells us the person should be a woman). Note that
- an entity name may well be ambiguous (e.g. several people bearing the same name), the key differentiating trait between (1) and (2) concerns whether or not there must be a naming convention at the level of each entity (Kleiber, 2007)
- for concept names of course there is also a naming convention (why use the noun table for a table), but it is defined at the level of the class of entities, not at the level of each entity.
This distinction between entity name and instantiable concept name is reminiscent of the proper noun versus common noun distinction, but this latter distinction is not so easy to define precisely. Of course, lexical items that are exclusively used for directly naming entities (e.g. the first and last names for people) are easily to classified as proper nouns (sometimes called pure proper nouns). This is why Erhmann (2008) roughly defines proper nouns as the "désignation d’une entité précise par le biais d’une description dont le sens joue un rôle mineur par rapport à la dénomination, opérant directement, du référent" (the designation of a precise entity via a description whose meaning plays a minor role with respect to the denomination of the referent, which operates directly"). But an abundant litterature shows that the proper / common noun distinction reveals difficult to characterize in linguistic terms (we refer primarily to (Kleiber, 2001;2007) and (Erhmann, 2008) for a state of the art). Indeed within entity names, we can distinguish:
- (1a) entity names composed of lexical items that are dedicated to naming entities (to say it quickly: proper nouns), such as Italy, Anna Duval, Microsoft
- (1b) entity names that have a descriptive basis, such as the "International League against Racism and Anti-Semitism" or the "Massif central" (litterally the "central massif"): the naming convention between the entity and the name is sociologically typical of a proper noun (the name of an association, of a geographical item), but also clearly results from the compatibility of the entity characteristics and the meaning of the lexical items
- (1c) but also names which serve to designate unique abstract entities, such as abstract simple nouns ("taxidermy") or abstract MWEs (Euclidean geometry, machine translation), and names referring to unique concrete entities such as the sun or the moon (often called "unica"): because of the unicity of the entity that can be called that way, they too can be viewed as entity names, for which the speakers have to learn the naming convention.
Now the thing is that cases like unique abstract terms (machine translation) are traditionnally not viewed as proper nouns, and concrete unica like the moon are widely debated. Kleiber (2007) argues that unica terms necessarily name unique entities, whereas this is not the case for entity names (cf. supra ambiguity of entity names). Kleiber (1995) argues that the moon is viewed as a unique entity, whereas Mars is a name that serves to identify a particular planet within the class of planets. While these arguments seem arbitrary to us, we keep the tradition of considering (1b) cases as proper nouns, and (1c) cases as common nouns.
Within PARSEME-FR, we have chosen to distinguish between:
- cases (1a)/(1b), which are generally considered in NLP as named entities (although the term is a bit confusing, cf. "named entity" should refer to the entity and not the name, we will use it, as usual in the NLP community, for entity names), and named entities are generally associated to semantic types (person, organization etc...). We annotate these as named entities (EN), using a dedicated guide, provided they are of the following semantic type: PERSON, ORGANIZATION, LOCATION, HUMAN PRODUCT, EVENT (as these happen to often be named with a pure proper noun).
- moreover, for named entities, we do annotate the polylexical case (Anna Duval) but also single token entity names (Italy, Anna): indeed, from the applicative point of view, it would be a pity to ignore the latter.
- for cases (2) and (1c) (which are not intuitively considered proper nouns) we use another guide, and a MWE tag (to be understood as non NE multi-word expression).
It remains that these objects share some characteristics, and some tests are similar.
<-- privilégie comme distinction première la distinction entre les expressions qui, dans leur emploi le plus standard, dénomment directement une entité particulière et pas une classe d'entités (prototypiquement un "nom propre", par exemple le nom d'une personne, Anna Lapeyre) versus les séquences désignant un référant via une description "classifiante" (par exemple, une femme en train de couper du pain, la députée dont je te parlais hier), où il s'agit de repérer celles qui sont des expressions polylexicales car idiosyncratiques dans leur combinaison (il a perdu sa carte bleue).
Bien que cette distinction entre dénomination directe vs par description classifiante soit plus une distinction logique que linguistique, on la juge utile d'un point de vue applicatif et utile dans la manière d'appliquer les tests. En effet malgré des similitudes dans certains tests, on ne va pas forcément insister sur les mêmes difficultés dans les deux cas. -->
Top decision tree
On a ainsi organisé le présent guide en deux sous-parties, une pour les noms d'entités (le guide des "entités nommées", ci-après EN, restreint en outre à certains types sémantiques pré-définis: personne, organisation, lieu, produit humain et évènement) et un autre guide pour les expressions non verbales (ci-après simplement EP).
Nous mettons aussi à disposition une liste de cas difficiles tranchés grâce aux critères
La marche à suivre générale pour annoter est la suivante:
Pour une séquence de plusieurs tokens, pour laquelle on a l'intuition que le sens de l'expression est obtenu de manière idiosyncratique et/ou qu'il y a sélection non libre des parties (au niveau morphologique ou lexical, des substitutions normalement faisables ne sont pas possibles ou produisent un changement de sens inattendu), on suit l'arbre suivant:
- la séquence a-t-elle une distribution de verbe ?
- NON => continuer
- OUI => aller au guide des EP verbales (lien externe)
- la séquence a-t-elle une distribution de nom ou de syntagme nominal ?
- NON => aller au guide des EP non verbales
- OUI => continuer
- la séquence réfère-t-elle (en contexte) à une entité spécifique ? (c.-à.-d. pas une interprétation générique, de type le chat est un mammifère)
- NON => aller au guide des EP non verbales
- OUI => continuer
- la séquence constitue-t-elle, dans son emploi le plus standard, le nom direct de cette entité spécifique et pas d'une classe d'entités?
- NON => aller au guide des EP non verbales
- OUI ou PAS CLAIR => aller au guide des EN
Pour la question 3. on distingue schématiquement 2 manières d'identifier le référent spécifique de l'expression:
(a) identifier l'entité au moyen des propriétés évoquées par l'expression
(b) récupérer dans sa mémoire l'entité qui "porte ce nom" (i.e. un type particulier de sens instructionnel, d'après Kleiber cité par Ehrmann, 2008). Ce cas est prototypique d'un nom propre, pour lequel on peut citer Ehrmann 2008: "Même composé d’éléments dotés d’un sens lexical, ce qui est essentiel pour le nom propre est la dimension dénominative, prenant le pas sur une dimension descriptive probablement efficiente à l’origine mais dont les locuteurs ont progressivement perdu conscience."
On a cela dit le cas proche de b) suivant:
(b') identifier au moyen d'indices de forme qu'il s'agit d'un nom d'entité spécifique, même si on ne connaît pas l'entité (par exemple pour "Paul Corbère", on repère une forme typique de nom de personne, sans avoir besoin de connaître cette personne).
En outre, on a des situations intermédiaires de séquences ayant les 2 types de comportement (a) et (b/b') (i.e. à la fois dénomination officielle d'une entité, mais avec une base descriptive). Dans ces cas on privilégie l'aspect dénomination (et on code EN). Si on hésite sur le fait qu'une expression fonctionne comme la dénomination directe d'une entité (son "nom") on utilise l'arbre de décision du guide des EN.
Enfin, pour les entités nommées des types sémantiques retenus (personne, organisation, lieu, évènement, produit humain), on inclut également des mots simples, faisant ainsi une entorse au focus sur les expressions polylexicales. Il a semblé en effet utile d'un point de vue applicatif de ne pas distinguer par exemple les mentions M. Pierre Corbère, et Corbère.