THIS PAGE BELONGS TO THE
PUBLIC
DOC OF PARSEME-FR
Défis d'annotation en EN
Retour au guide l'annotation des EN
1. EN à base descriptive vs. descriptions définies
Selon les débats logiques, philosophiques et linguistiques rapportés par Ehrmann (2008), une description définie est une description
- qui réfère à une entité spécifique du discours en cours, qu'elle soit réelle (le Président de la République) ou imaginaire (l’actuel Roi de France),
- telle que l'identification de son référent ne peut se faire par le sens seul de la description, mais nécessite des connaissances empiriques.
Par exemple, la baleine serait une expression définie dans la baleine a heurté le bateau, mais pas dans la baleine est un mammifère. Une description définie complète évoque le référent par ses seules ressources (e.g. Le Président de la République Française en 2005), alors qu'une description définie incomplète a pour ceci besoin des éléments du contexte (e.g. le président).
Comme les descriptions définies, les entités nommées réfèrent à une entité spécifique. La différence tient à ce que pour comprendre et utiliser un nom propre, il faut connaı̂tre une convention de nommage, alors que pour interpréter une description définie, il faut surtout se baser sur "des connaissances extra-linguistiques, indiquant que tel ou tel objet ou entité possède les propriétés dénotées par le sens des composants de la description".
Comme indiqué en introduction générale du guide, certaines EN sont à base descriptive, c'est à dire elles sont des descriptions définies conventionnalisées. Le défi d'identification d'une EN à base descriptive est triple:
- Nous ne possédons pas la connaissance de toutes les conventions de nominalisation auquel peut se référer un énoncé. Par exemple l'Association pour la protection des animaux sauvages a pu être enregistrée sous ce nom sans que nous en ayant connaissance.
- des EN à base descriptive peuvent être raccourcies (par exemple la commission ou la Commission pour la commission européenne). Le guide doit permettre de décider s'il s'agit toujours d'un nom spécifique de l'entité, ou bien si on passe à une référence à une instance de concept, sur la base du sens du concept (ici "commission").
2. Critère de la majuscule
Comme mentionnée plus haut, le processus de conventionnalisation est crucial pour identifier un nom propre, mais il est parfois difficile de le connaître et de savoir si l'auteur y fait référence. Nous allons donc nous reposer sur les indices existant dans le texte pour le comprendre, à commencer par le critère de la majuscule, i.e. le fait que la séquence candidates ou l'une de ces variantes dans le même texte, s'écrit avec une majuscule initiale au milieu d'une phrase.
Notons cependant que, pour des raisons d'usage, un auteur peut ignorer l'emploi de la majuscule dans une EN. Ainsi, des EN candidates restent ambiguës avec des expressions définies non conventionnalisées d'une part, et les expressions polylexicales d'autre part.
Les exemples du premier type incluent la mairie de Paris ou le tribunal correctionnel de Nanterre, où le nom propre (nom officiel d'une administration) coïncide avec avec une description référant à une classe (la mairie ou le tribunal d'une des villes de France). Les exemples du deuxième type incluent le conseil régional, le jardin des plantes, le commissariat à l'énergie atomique. Toutes ces occurrences pourraient être considérées comme EP pour des raisons de leur non-compositionnalité sémantique (cf. tests ID et PRED).
Il n'y a pas de solution pleinement satisfaisante dans ces cas, mais nos arbres de décisions devraient permettre une annotation consistante.
2. Sources externes
Si le critères de la majuscule n'est pas applicable, ou si l'empan d'une séquence candidate n'est pas claire, l'annotateur peut élargir son champ d'investigation à internet (e.g. les pages web officielles ou les pages Wikipédia titrées par la séquence candidate).
6. Fuzzy span of a named entity
With many NE candidates, especially those based on definite descriptions, the precise left and right span boundaries are often hard to establish. Three cases are notoriously hard to solve but our decision trees should enable a mostly consistent annotation.
- Classifiers, i.e. common names describing the type of the object the NE refers to
- centre hospitalier de Bar-le-Duc => a web page exists => NE
- école Notre-Dame => the classifier "école" is to be kept => NE
- salle Jean-Mathieu
- laiterie Besnier
- laiterie SOGECO
- église Notre-Dame
- hôtel Le Relais
- palais Jacques Coeur
- Determiners ADDITION by Marie, after adjudication skype aug 31st 2017: for determiners, the decision can be made on the basis of how external resources treat the determiner: do official pages of the entity use the determiner in the title?
- Le Havre : yes
- les États-Unis : no
- le Togo : no
- la Seine : no
- les Capets : ??
- le France (paquebot) : no
- la mairie de Paris : no
- l'Académie (de Platon) : no
- La Rochelle : yes
- Adverbials
- la Croix-Rouge française de Blois => a web page exists (without the det)=> NE
- la mairie de Paris => a web page exists without the det => NE
- les Etats-Unis d'Amérique
- le Stade de France
- Université Tous Ages à Lyon
7. Imbrications et ellipses
La prise en compte de la métonymie, par l'annotation du type primitif et final d'une EN pose des problèmes difficiles en lien avec le phénomène de l'ellipse. Par exemple un nom comme FC Porto devrait être annoté comme organisation, avec un nom de ville imbriqué: [FC [Porto]_LOC]_ORG. Cependant, dans une occurrence Porto a marqué 3 buts le nom Porto peut être vu comme ellipse du nom précédent, et donc incluant une imbrication: [[Porto]_LOC]_ORG, ou bien comme une simple métonimie: [Porto]_ORG.LOC. Dans ce cas nous allons systématiquement privilégier cette dernière interprétation pour sa plus grande simplicité:
FC 1+ORG
Porto 1+ORG/2+LOC
a
joué
hier
Porto 1+LOC.ORG
a
marqué
association
d'
insertion
la
mairie
l'
Association 1+ORG
d' 1
insertion 1
la
Mairie 1+ORG
conseil 1+LEX
général 1
Conseil 1+ORG/2+LEX
Général 1/2
le
jardin 1+PRED
des 1
plantes 1
le
Jardin 1+LOC/2+PRED
des 1/2
plantes 1/2