THIS PAGE BELONGS TO THE
PUBLIC
DOC OF PARSEME-FR
Aller aux arbres de décision pour l'annotation en EN
Revenir au sommet du guide d'annotation
Aller au guide d'annotation des EP
Aller aux explications sur les défis de l'annotation en EN
Guide d'annotation des entités nommées (EN)
- Portée de l'annotation
- Les types d'EN
- Noms de personne (PERS)
- Noms de lieu (LOC)
- Noms de produits humains (PROD)
- Nom d'événements (EVE)
- Métonymie: type final et type primitif
- L'empan (ou span) des EN
- Coordinations d'EN
Ici nous décrivons les principes généraux de l'annotation en EN. La procédure précise est ensuite formalisée sous forme d'arbres de décision.
1. Portée de l'annotation
Nous traitons les EN distinctement des EP, car l'un des objectifs principaux de l'annotation, en plus de l'identification des EP, est de séparer les expressions ayant pour fonctionnement standard de se référer directement à une entité unique (les EN) de celles qui pour renvoient à un type (classe) d'entités (les EP), même si bien sûr selon le contexte elles peuvent référer à des entités uniques. Notamment pour cette raison certains noms considérés traditionnellement comme EN ne sont pas annotés chez nous comme des EN, dès lors qu'ils décrivent des classes, e.g. des produits désignés par un nom de modèle (j'ai acheté un Peugeot Partner), .
Par "entorse applicative", on annote à la fois les entités nommées monolexicales (France) et les entités nommées polylexicales (Royaume-Uni). En outre on annote:
- les imbrications d'EN: (EN Université de (EN Tours))
- les imbrications combinant EN et EP: (EN Ligue des (EP Droits de l'Homme))
- les EN coordonnées par factorisation de certain composants ((EN1-EN2 Amérique) (EN1 du Nord) et (EN2 du Sud))
Pour définir une EN, nous nous appuyons sur les travaux de M. Ehrmann (2008): "Étant donné un modèle applicatif et un corpus, on appelle EN toute expression linguistique qui réfère à une entité unique du modèle de manière autonome dans le corpus." , et ce, sur la base d'une convention de nomination de l'entité (et pas d'une classe d'entité).
Les défis majeurs concernant l'annotation des EN concernent:
- les EN à base descriptive (e.g. le Président de la République)
- l'accès à la connaissance sur la convention de nomination (quel nom est officiel pour une entité ?)
- l'inclusion des classifieurs dans l'empan d'une EP. Voir une page dédiée à la discussion de ces défis.
2. Les types d'EN
Nous nous limitons à l'ensemble suivant de types: personne (Paul Dupond), lieu (Etats-Unis), organisation -- incluant les humains collectifs -- (Crédit Lyonnais), produit humain (Les Misérables, Renault Clio), événements nommés (Printemps arabe). Cela implique que d'autres types, parfois considérés comme appartenant au domaine des EN, ne sont pas annotés, par exemple: nationalités et habitants (les français, les européens, les parisiens), membres d'organisations ou structures (les onusiens, un jésuite) ou dates.
Les symboles utilisés sont les suivants:
- personne: PERS
- organisation: ORG
- lieu: LOC
- produit humain: PROD
- événement nommé: EVE
2.1. Noms de personne (PERS)
Les noms de personne ne posent en général pas de problème. Attention cependant à la famille Dupond ou les frères Dupond: dans ce cas-là les entités Dupond ne sont pas annotées comme EN chez Sagot et al. (2012) car la mention désigne un ensemble de plusieurs individus. Chez nous, ils seront annotés comme PERS (l'entité unique est bien le groupe de personnes liées par un lien familial), sans inclure le classifieur:
les
frères
Dupond 1+PERS
Attention: on intègre les particules des noms à particule. Par exemple, dans la séquence M. de Robien, on annote de Robien (pas indiqué dans Sagot et al. 2012)
Par contre, les noms de lieu inclus dans des noms de personne ne sont pas annotés en tant que tels car considérés comme évoquant une référence historiquement trop lointaine, comme Richelieu dans de Richelieu ou Estaing dans Valéry Giscard d'Estaing.
On considère les noms de personnages fictifs comme des noms de personne: Picsou, Indiana Jones, ...
2.2. Noms de lieu (LOC)
Il s'agit des noms de:
- lieux géographiques (délimités dans le terrain, soit naturellement, soit par l'activité humaine) : rivières, montagnes, lacs, mers, villes, bâtiments, zones industrielles, etc.,
- unités de division administratives (existant uniquement de fait d'une définition opérée par une administration) : états, régions, départements, quartiers etc.
Ces noms sont notoirement difficiles à annoter en ce qui concerne leurs frontières d'empan gauche et droite. L'arbre de décision permet de résoudre la plupart des doutes de ce type.
Notons que les noms de ce dernier type sont souvent employés de manière métonymique pour désigner les habitants d'une unité administrative. Dans ce cas, ils sont annotés avec ORG comme type final, et LOC comme type primitif (cf. infra section métonymie).
2.3. Noms d'organisation (ORG), incluant les humains collectifs
Il s'agit des noms d'associations, institutions, entreprises, organismes publics et privés, tous groupements humains plus ou moins formels, sauf des familles (e.g. frères Dupont, les Capétiens) qu'on compte parmi les noms de personnes. Souvent, le type ORG joue le rôle d'un type final associé au type primitif LOC, pour désigner les habitants d'une localité par exemple.
Ces noms sont notoirement difficiles à annoter en ce qui concerne leurs frontières d'empan gauche et droite. L'arbre de décision permet résoudre la plupart de doutes de ce type.
2.4. Noms de produits humains (PROD)
Il s'agit des noms d'instances uniques d'artefacts mobiles et oeuvres, comme par exemple moyens de transport (le paquebot Queen Mary), oeuvre (La lettre à Elise), etc. Les artefacts immobiles tels que bâtiments (Tour Eiffel) ou villes (Maisons-Alfort) sont considérés comme localités (LOC).
Pour les oeuvres, on n'annote que le titre: ex. la séquence Les Misérables de Victor Hugo comprend deux EN ("Les Misérables" -> PROD et "Victor Hugo" -> PERS). Le titre peut constituer n'importe quelle séquence de mots (ex. Le Père Noel est une ordure, Le Rouge et le Noir), et bien sûr peut comporter en son sein des EN et EP.
Attention, comme l'un des objectifs principaux de l'annotation est de séparer les expressions se référant directement à une entité unique de celles décrivant une classe d'entités. Ainsi les noms de marques (Volvo, Peugot Partner, Angiox) sont annotés lorsqu'ils réfèrent à ces marques, mais non lorsqu'ils réfèrerent à des instances de cette marque ou modèle :
- J'ai acheté deux voitures de la marque Volvo_ (annoté)
- J'ai acheté deux Volvo (non annoté)
Ceux qui sont polylexicales sont par contre habituellement annotée en tant que EP (Peugot Partner) grâce au test LEX.
Pour le cas de journaux ou noms de blog ou d'agence de presse, on considère 3 cas:
- il s'agit toujours primitivement d'une EN de type ORG, qui est aussi le type final dans les cas comme Libération s'est mis en grève
- dans des citations issues de ces sources journalistiques, on considère un produit humain de référence unique correspondant à l'ensemble du contenu informationnel produit par la source, et on annote PROD.final.
- Par exemple Je l'ai lu dans Libé, on annote ORG.prim et PROD.final
- Par exemple pour les citations d'articles : "Le grand saut", Libération, 3 août 2006, on annote la source journalistique ORG.prim et PROD.final (et le titre de l'article est PROD.final)
- enfin dans le cas assez rare où on réfère à un exemplaire précis (j'ai un Canard enchaîné dans ma main, il se promenait avec un Libé sous le bras): on annote toujours EN ORG.primitif, mais il ne s'agit pas d'une EN finale. On annote EP si plusieurs tokens (Canard enchaîné), et on n'annote rien en plus si mono-token (Libération)
Les concepts abstraits, notamment scientifiques (e.g. physique quantique, géométrie euclidienne), ne sont pas considérés comme produits. Ils peuvent donc être annotés en tant que EP, mais pas EN.
2.5. Noms d'événements (EVE)
On annote uniquement les événements nommés: ex. Première Guerre Mondiale, Printemps arabe, ... La mention de telles EN ont en général la forme de GN classiques.
On parlera d'évènement nommé si la séquence, même hors contexte, ne réfère qu'à une instance bien précise d'évènement alors qu'elle pourrait référer à toute une classe d'évènements si on appliquait l'interprétation sémantique régulière.
Exemples:
Le 11 septembre => pas n'importe quel 11 septembre (et puis dans la matinée)
Le printemps arabe => pas n'importe quel printemps arabe, mais une certaine période de 2011, pas complètement un printemps d'ailleurs
Comme dans le case des produits, les noms d'événements périodiques (Championnat de l'Italie de football) ne sont PAS annotés en tant que EN. Ils peuvent éventuellement l'être en tant que EP (Olympiade des métiers, #Olympiade des professions).
3. Métonymie: type final et type primitif
On annote le type comme on annote les critères pour les EP: on indique le type final et, quand cela est possible/pertinent, le type primitif. Dans la phrase La France a perdu contre le Portugal à l'Euro 2016, on annote les informations suivantes. Le type final de France et Portugal est organisation (ORG). Leur type primitif est lieu (LOC). Le type final et primitif de Euro 2016 est événement (EVE) (dans ce cas on annote sous FLAT uniquement le type final).
Cet exemple serait annoté de la manière suivante:
La
France 1+ORG.LOC
a
perdu
contre
le
Portugal 2+ORG.LOC
à
l'
Euro 3+EVE
2016 3
Une EN ayant le même type primitif que son type final doit être annotée uniquement avec son type final, il ne faut pas ajouter une annotation d'EN avec un type primitif identique au type final.
Si une EN est sujette à plusieurs métonymies, on annote the type final et le type directement précédant de cette chaîne, e.g. Renault était d'abord le nom de personne, puis une entreprise, puis une marque. Dans J'ai acheté une voiture de la marque Renault on annote Renault comme PROD.ORG.
Dans le cas où il est difficile de distinguer le type primitif du type final, nous préconisons l'ordre partiel suivant:
PROD < (moins primitif) < ORG < PERS < LOC
Par exemple:
- Humains collectifs habitant un certain lieu: ORG.LOC (le type ORG est final, LOC est primitif), e.g. Marseille a voté à droite.
- Entreprise fabriquant un produit ou une marque: PROD.ORG, e.g. J'ai acheté une Volvo.
- Rédaction d'un journal: PROD.ORG, e.g. Le Canard Enchaîné de cette semaine était très drole.
- Entreprise ou marque créée par une personne: ORG.PERS, PROD.PERS, e.g. Yves Saint-Laurent a été acheté dans le années 1990.
Dans le cas où on peut hésiter entre 2 interprétation, une primitive et une finale, on choisit alors le type primitif. En particulier, pour un nom de pays, si l'interprétation comme LOC peut fonctionner (mais aussi comme ORG), on choisit LOC.
4. L'empan (ou span) des EN
L'établissement des frontières gauche et droite d'une EN, surtout celle à base descriptive, est un problème notoirement difficile (voir une section dédiée à ce sujet).
5. Imbrications d'EN
Lorsqu'une EN est imbriquée dans une autre, on annote les deux séquences, sauf si la plus courte dénoterait le même référent que la plus longue. Par exemple:
Université 1+ORG
de
Tours 1/2+LOC
mais dans [PERS Emmanuel Macron] on n'annote pas en plus Emmanuel et Macron comme PERS.
Les exceptions incluent:
- les localités inclues dans les noms de familles nobles (car considérées comme références historiquement trop lointaines), e.g. [Valéry Giscard d'Estaing] (Estaing n'est pas annoté comme LOC)
- les noms propres qui, par métonymie, deviennent des expressions polylexicales ou noms communs, e.g. un gateau Saint-Honoré, un Paris-Brest
Certaines conventions de nommage avec imbrication suggèrent un emploi de tirets dans les EN imbriquées. Idéalement, le tiret ne devrait pas être annoté comme faisant partie de l'imbrication, e.g.:
place 1+LOC
Jean 1/2+PERS
- 1
Jaurès 1/2
Cependant, pour des raisons de tokenisation imparfaite, l'isolation du tiret peut s'avérer impossible. Dans ce cas, on tolère son inclusion dans l'EN imbriquée:
place 1+LOC
Jean- 1/2+PERS
Jaurès 1/2
6. Coordinations d'EN
Nous distinguons deux types de coordinations d'EN
- La conjonction de coordination fait partie du nom (par convention de nominalisation), comme dans Association pour la lutte contre les maladies inflammatoires du foie et des voies biliaires et doit donc être annotée avec tous les autres composants comme faisant partie d'une seule EN.
- La conjonction de coordination relie deux EN, faisant éventuellement intervenir la factorisation d'un composant commun aux deux EN, comme dans Amérique du Nord et du Sud. Dans ce cas, deux occurrences d'EN doivent être annotées, et le composant factorisé doit apparaître dans l'empan des deux, ce qui provoque une superposition d'annotations:
Amérique 1+LOC/2+LOC
du
Nord 1
et
du
Sud 2