|
|
**`THIS PAGE BELONGS TO THE` _`PUBLIC`_ `DOC OF PARSEME-FR`**
|
|
|
|
|
|
# Guide d'annotation des entités nommées (EN)
|
|
|
|
|
|
[Aller aux arbres de décision pour l'annotation en EN](ne-decision-tree)
|
|
|
[Revenir au sommet du guide d'annotation](Guide-annotation-ep-en)
|
|
|
[Aller au guide d'annotation des EP](Criteres)
|
|
|
[Aller aux explications sur les défis de l'annotation en EN](defis-en)
|
|
|
|
|
|
Ici nous décrivons les principes généraux de l'annotation en EN. La procédure précise est ensuite formalisée sous forme d'[**arbres de décision**](ne-decision-tree).
|
|
|
|
|
|
### 1. Portée de l'annotation
|
|
|
|
|
|
Nous traitons les EN distinctement des EP, car l'un des objectifs principaux de l'annotation, en plus de l'identification des EP, est de séparer les expressions ayant pour fonctionnement standard de se référer directement à une **entité unique** (les EN) de celles qui pour renvoient à un **type (classe) d'entités** (les EP), même si bien sûr selon le contexte elles peuvent référer à des entités uniques.<sup>[1](#footnote1)</sup> Notamment pour cette raison certains noms considérés traditionnellement comme EN ne sont pas annotés chez nous comme des EN, dès lors qu'ils décrivent des classes, e.g. des produits désignés par un nom de modèle (j'ai acheté un _Peugeot Partner_), .
|
|
|
<!-- ou des noms de journaux (_Le Canard Enchaîné_), quand il s'agit d'un exemplaire du journal, mais sont annotés comme EN de type organisation selon le contexte ("J'ai acheté _le canard enchainé_(EP) aujourd'hui" vs "Le _canard enchaîné_(EN_ORG) a enquêté sur les emplois fictifs"). -->
|
|
|
|
|
|
Par "entorse applicative", on annote à la fois les entités nommées **monolexicales** (<span style="color:blue">France</span>) et les entités nommées **polylexicales** (_Royaume-Uni_). En outre on annote:
|
|
|
- les [imbrications](#5-imbrications-den) d'EN: (EN _Université de_ (EN _Tours_))
|
|
|
- les imbrications combinant EN et EP: (EN _Ligue des_ (EP _Droits de l'Homme_))
|
|
|
- les [EN coordonnées](#coord) par factorisation de certain composants ((EN1-EN2 _Amérique_) (EN1 _du Nord_) _et_ (EN2 _du Sud_))
|
|
|
|
|
|
Pour définir une EN, nous nous appuyons sur les travaux de M. Ehrmann (2008):
|
|
|
"Étant donné un modèle applicatif et un corpus, on appelle EN toute expression linguistique qui **réfère à une entité unique du modèle de manière autonome dans le corpus**." , et ce, sur la base d'une **convention de nomination** de l'entité (et pas d'une classe d'entité).
|
|
|
|
|
|
Les défis majeurs concernant l'annotation des EN concernent:
|
|
|
- les EN à base descriptive (e.g. _le Président de la République_)
|
|
|
- l'accès à la connaissance sur la convention de nomination (quel nom est officiel pour une entité ?)
|
|
|
- l'inclusion des classifieurs dans l'empan d'une EP.
|
|
|
Voir une [page dédiée](defis-en) à la discussion de ces défis.
|
|
|
|
|
|
### <a name="en-types"></a> 2. Les types d'EN
|
|
|
|
|
|
Nous nous limitons à l'ensemble suivant de types: **personne** (*Paul Dupond*), **lieu** (*Etats-Unis*), **organisation** -- incluant les humains collectifs -- (*Crédit Lyonnais*), **produit humain** (*Les Misérables*, *Renault Clio*), **événements nommés** (*Printemps arabe*). Cela implique que d'autres types, parfois considérés comme appartenant au domaine des EN, ne sont **pas** annotés, par exemple: nationalités et habitants (*les français*, *les européens*, *les parisiens*), membres d'organisations ou structures (*les onusiens*, *un jésuite*) ou dates.
|
|
|
|
|
|
Les symboles utilisés sont les suivants:
|
|
|
- personne: PERS
|
|
|
- organisation: ORG
|
|
|
- lieu: LOC
|
|
|
- produit humain: PROD
|
|
|
- événement nommé: EVE
|
|
|
|
|
|
|
|
|
#### <a name="pers"></a> 2.1. Noms de personne (PERS)
|
|
|
|
|
|
Les noms de personne ne posent en général pas de problème. Attention cependant à la *famille Dupond* ou les *frères Dupond*: dans ce cas-là les entités *Dupond* ne sont pas annotées comme EN chez Sagot et al. (2012) car la mention désigne un ensemble de plusieurs individus.
|
|
|
Chez nous, ils seront annotés comme PERS (l'entité unique est bien le groupe de personnes liées par un lien familial), sans inclure le classifieur:
|
|
|
|
|
|
les
|
|
|
frères
|
|
|
Dupond **1+PERS**
|
|
|
|
|
|
*Attention:* on intègre les particules des noms à particule. Par exemple, dans la séquence *M. de Robien*, on annote *de Robien* (pas indiqué dans Sagot et al. 2012)
|
|
|
|
|
|
Par contre, les noms de lieu inclus dans des noms de personne ne sont pas annotés en tant que tels car considérés comme évoquant une référence historiquement trop lointaine, comme *Richelieu* dans *de Richelieu* ou *Estaing* dans *Valéry Giscard d'Estaing*.
|
|
|
|
|
|
On considère les noms de personnages fictifs comme des noms de personne: *Picsou*, *Indiana Jones*, ...
|
|
|
|
|
|
|
|
|
#### <a name="loc"></a> 2.2. Noms de lieu (LOC)
|
|
|
Il s'agit des noms de:
|
|
|
* lieux géographiques (délimités dans le terrain, soit naturellement, soit par l'activité humaine) : rivières, montagnes, lacs, mers, villes, bâtiments, zones industrielles, etc.,
|
|
|
* unités de division administratives (existant uniquement de fait d'une définition opérée par une administration) : états, régions, départements, quartiers etc.
|
|
|
|
|
|
Ces noms sont notoirement difficiles à annoter en ce qui concerne leurs frontières d'empan gauche et droite. L'[arbre de décision](ne-decision-tree) permet de résoudre la plupart des doutes de ce type.
|
|
|
|
|
|
Notons que les noms de ce dernier type sont souvent employés de manière métonymique pour désigner les habitants d'une unité administrative. Dans ce cas, ils sont annotés avec ORG comme type final, et LOC comme type primitif (cf. infra section métonymie).
|
|
|
|
|
|
<!--
|
|
|
S'il possède une majuscule, le classifieur est forcément inclus.
|
|
|
-->
|
|
|
|
|
|
<!---
|
|
|
Pour les délimitations territoriales, on n'inclut pas le classifieur car le nom propre possède généralement son autonomie.
|
|
|
|
|
|
la région **Ile-de-France**
|
|
|
le département du **Doubs**
|
|
|
la ville de **Paris**
|
|
|
|
|
|
Par défaut, on inclut le classifieur .
|
|
|
|
|
|
Max habite au 2 **rue de la Paix**
|
|
|
Max est allé à la **place Leon Blum**
|
|
|
Luc va se baigner dans la **mer du Nord**
|
|
|
|
|
|
On applique toujours cette règle même si le classifieur peut être effacé en contexte pour un lieu très connu (parfois juste localement):
|
|
|
|
|
|
_Les **Champs-Elysées** sont illuminées toute la nuit_ (pour l'**avenue des Champs-Elysées**)
|
|
|
_la **Méditerranée**/**mer Méditerranée** est calme en cette période_
|
|
|
_Les cyclistes escaladent difficilement le **Tourmalet**/le **col du Tourmalet**_
|
|
|
-->
|
|
|
|
|
|
#### <a name="org"></a> 2.3. Noms d'organisation (ORG), incluant les humains collectifs
|
|
|
Il s'agit des noms d'associations, institutions, entreprises, organismes publics et privés, tous groupements humains plus ou moins formels, sauf des familles (e.g. _frères Dupont_, _les Capétiens_) qu'on compte parmi les noms de personnes. Souvent, le type ORG joue le rôle d'un type final associé au type primitif LOC, pour désigner les habitants d'une localité par exemple.
|
|
|
|
|
|
Ces noms sont notoirement difficiles à annoter en ce qui concerne leurs frontières d'empan gauche et droite. L'[arbre de décision](ne-decision-tree) permet résoudre la plupart de doutes de ce type.
|
|
|
|
|
|
<!--
|
|
|
Les noms classifieurs ne sont pas inclus dans l'annotation sauf quand ils font partie du nom, ce qui est souvent le cas des EN à base descriptive (cf. plus bas). Le critère de la majuscule initiale peut aider:
|
|
|
|
|
|
_L'entreprise **Renault** réalise des bénéfices record_
|
|
|
_La **Société Nationale des Chemins de Fer** réalise des bénéfices record_
|
|
|
_Les **Editions du Cherche-Midi** réalisent des bénéfices historiques_
|
|
|
|
|
|
Cependant, la majuscule n'étant pas toujours le critère fiable (voir plus bas), il convient d'en étudier l'emploi dans un contexte plus large (e.g. le site web officiel de l'organisation, ou d'autres textes trouvés sur Internet) afin de déterminer l'appartenance du classifieur à l'empan de l'EN. Quelques cas tranchés de manière générale incluent
|
|
|
- les **éditions**, où l'on considère le classifieur toujours inclu dans le nom (car l'ellipse *éditions* n'a pas de statut autonome pour décrire la même organisation):
|
|
|
|
|
|
_les **éditions Stock**_
|
|
|
_les **éditions Gallimard**_
|
|
|
_les **Editions du Cherche-Midi**_
|
|
|
-->
|
|
|
|
|
|
|
|
|
#### <a name="prod"></a> 2.4. Produits humains (PROD)
|
|
|
|
|
|
Il s'agit des noms d'instances uniques d'artefacts mobiles et oeuvres, comme par exemple moyens de transport (le paquebot _Queen Mary_), oeuvre (_La lettre à Elise_), etc. Les artefacts immobiles tels que bâtiments (_Tour Eiffel_) ou villes (_Maisons-Alfort_) sont considérés comme localités (LOC).
|
|
|
|
|
|
Pour les oeuvres, on n'annote que le titre: ex. la séquence _**Les Misérables** de **Victor Hugo**_ comprend deux EN ("Les Misérables" -> PROD et "Victor Hugo" -> PERS). Le titre peut constituer n'importe quelle séquence de mots (ex. *Le Père Noel est une ordure*, *Le Rouge et le Noir*), et bien sûr peut comporter en son sein des EN et EP.
|
|
|
|
|
|
Attention, comme l'un des objectifs principaux de l'annotation est de séparer les expressions se référant directement à une entité unique de celles décrivant une classe d'entités. Ainsi les noms de **marques** (_Volvo_, _Peugot Partner_, _Angiox_) sont annotés lorsqu'ils réfèrent à ces marques, mais non lorsqu'ils réfèrerent à des instances de cette marque ou modèle :
|
|
|
* J'ai acheté deux voitures de la marque Volvo_ (annoté)
|
|
|
* J'ai acheté deux Volvo (non annoté)
|
|
|
|
|
|
Ceux qui sont polylexicales sont par contre habituellement annotée en tant que EP (_Peugot Partner_) grâce au test [LEX](https://gitlab.lif.univ-mrs.fr/PARSEME-FR/PARSEME-FR/wikis/Criteres-lexicaux#41-figement-des-%C3%A9l%C3%A9ments-lexicalement-pleins-t%C3%AAte-ou-compl%C3%A9ment-lex-et-term).
|
|
|
|
|
|
Pour le cas de **journaux** ou noms de **blog** ou d'agence de presse, on considère 3 cas:
|
|
|
|
|
|
- il s'agit toujours primitivement d'une EN de type ORG, qui est aussi le type final dans les cas comme _Libération s'est mis en grève_
|
|
|
- dans des citations issues de ces sources journalistiques, on considère un produit humain de référence unique correspondant à l'ensemble du contenu informationnel produit par la source, et on annote PROD.final.
|
|
|
- Par exemple _Je l'ai lu dans Libé_, on annote ORG.prim et PROD.final
|
|
|
- Par exemple pour les citations d'articles : _"Le grand saut", Libération, 3 août 2006_, on annote la source journalistique ORG.prim et PROD.final (et le titre de l'article est PROD.final)
|
|
|
- enfin dans le cas assez rare où on réfère à un exemplaire précis (_j'ai un Canard enchaîné dans ma main_, _il se promenait avec un Libé sous le bras_): on annote toujours EN ORG.primitif, mais il ne s'agit pas d'une EN finale. On annote EP si plusieurs tokens (Canard enchaîné), et on n'annote rien en plus si mono-token (Libération)
|
|
|
|
|
|
<!-- Evidemment ces mêmes noms, mono- comme poly-lexicaux, sont annotés en tant que EN s'ils se réfèrent à des organisations (entreprises, rédactions de journaux, etc.).-->
|
|
|
|
|
|
|
|
|
#### <a name="eve"></a> 2.5. Evénements nommés (EVE)
|
|
|
|
|
|
On annote uniquement les événements nommés: ex. _Première Guerre Mondiale_, _Printemps arabe_, ... La mention de telles EN ont en général la forme de GN classiques.
|
|
|
On parlera d'évènement nommé si la séquence, même hors contexte, ne réfère qu'à une instance bien précise d'évènement alors qu'elle pourrait référer à toute une classe d'évènements si on appliquait l'interprétation sémantique régulière.
|
|
|
Exemples:
|
|
|
_Le 11 septembre_ => pas n'importe quel 11 septembre (et puis dans la matinée)
|
|
|
_Le printemps arabe_ => pas n'importe quel printemps arabe, mais une certaine période de 2011, pas complètement un printemps d'ailleurs
|
|
|
|
|
|
Comme dans le case des produits, les noms d'événements périodiques (_Championnat de l'Italie de football_) ne sont PAS annotés en tant que EN. Ils peuvent éventuellement l'être en tant que EP (_Olympiade des métiers_, _#Olympiade des professions_).
|
|
|
|
|
|
### 3. Métonymie: type final et type primitif
|
|
|
|
|
|
On annote le type comme on annote les critères pour les EP: on indique le type final et, quand cela est possible/pertinent, le type primitif. Dans la phrase _La **France** a perdu contre le **Portugal** à l'**Euro 2016**_, on annote les informations suivantes. Le type final de _France_ et _Portugal_ est **organisation** (ORG). Leur type primitif est **lieu** (LOC). Le type final et primitif de _Euro 2016_ est **événement** (EVE) (dans ce cas on annote sous FLAT uniquement le type **final**).
|
|
|
|
|
|
Cet exemple serait annoté de la manière suivante:
|
|
|
|
|
|
La
|
|
|
France **1+ORG.LOC**
|
|
|
a
|
|
|
perdu
|
|
|
contre
|
|
|
le
|
|
|
Portugal **2+ORG.LOC**
|
|
|
à
|
|
|
l'
|
|
|
Euro **3+EVE**
|
|
|
2016 **3**
|
|
|
|
|
|
Une EN ayant le même type primitif que son type final doit être annotée uniquement avec son type **final**, il ne faut pas ajouter une annotation d'EN avec un type primitif identique au type final.
|
|
|
|
|
|
Si une EN est sujette à plusieurs métonymies, on annote the type final et le type directement précédant de cette chaîne, e.g. _Renault_ était d'abord le nom de personne, puis une entreprise, puis une marque. Dans _J'ai acheté une voiture de la marque Renault_ on annote _Renault_ comme PROD.ORG.
|
|
|
|
|
|
|
|
|
Dans le cas où il est difficile de distinguer le type primitif du type final, nous préconisons l'ordre partiel suivant:
|
|
|
<!-- LOC > (plus primitif) PERS > ORG > PROD -->
|
|
|
PROD < (moins primitif) < ORG < PERS < LOC
|
|
|
|
|
|
Par exemple:
|
|
|
- Humains collectifs habitant un certain lieu: ORG.LOC (le type ORG est final, LOC est primitif), e.g. *Marseille a voté à droite.*
|
|
|
- Entreprise fabriquant un produit ou une marque: PROD.ORG, e.g. *J'ai acheté une Volvo.*
|
|
|
- Rédaction d'un journal: PROD.ORG, e.g. *Le Canard Enchaîné de cette semaine était très drole.*
|
|
|
- Entreprise ou marque créée par une personne: ORG.PERS, PROD.PERS, e.g. *Yves Saint-Laurent a été acheté dans le années 1990.*
|
|
|
|
|
|
AJOUT MARIE SUITE A SKYPE 26 juillet 2017: Dans le cas où on peut hésiter entre 2 interprétation, une primitive et une finale, on choisit alors le type primitif. En particulier, pour un nom de pays, si l'interprétation comme LOC peut fonctionner (mais aussi comme ORG), on choisit LOC.
|
|
|
|
|
|
<!-- Nom de lieu désignant un bâtiment: LOC.PROD, e.g. *Monter sur la Tour Eiffel.* -->
|
|
|
|
|
|
### 4. L'empan (ou span) des EN
|
|
|
|
|
|
L'établissement des frontières gauche et droite d'une EN, surtout celle [à base descriptive](defis-en#basedesc), est un problème notoirement difficile (voir une [section dédiée](defis-en#span) à ce sujet).
|
|
|
|
|
|
|
|
|
<!---
|
|
|
L'empan de l'entité dépend du type (cf. plus loin). Pour se faciliter la tâche, nous donnons ci-dessous quelques principes généraux indépendants du type. Il est possible que ces principes ne s'appliquent pas pour un type (ou sous-type) donné. **Pour l'annotation, il faut favoriser les spécifications par type.**
|
|
|
|
|
|
Nous reprenons en grande partie les principes de Sagot et al. (TALN 2012) : les mentions d'EN peuvent correspondre au nom normalisé (*Jacques Chirac*), une variante sous-spécifiée de ce nom (ex. *Chirac* dans la séquence *le président Chirac*) ou un surnom (ex. *Hexagone* pour *France*). Les mots grammaticaux ou
|
|
|
contextuels entourant la mention de l’entité sont ignorés. Ainsi les déterminants ne sont pas pris
|
|
|
en compte, ni les titres, professions ou adjectifs pouvant apparaître pour qualifier l’entité. Ainsi,
|
|
|
dans *Chine méridionale*, seul *Chine* est annoté comme un nom de lieu, et dans *M. Bill Clinton* seul
|
|
|
*Bill Clinton* est annoté comme un nom de personne.
|
|
|
|
|
|
**Attention:** si l'usage est d'avoir une majuscule pour le déterminant, le nom classifieur ou l'adjectif qualifiant l'entité, on inclut ces derniers dans l'annotation de l'EN: par ex. *Le Havre*, *Première Guerre Mondiale*, *Université de Nantes*. S'ils sont en minuscules, on ne les annote pas. Important: on considère l'usage et pas à s'il y a effectivement majuscule ou pas pour l'occurrence considérée.
|
|
|
Notons que le recours à cette marque typographique est un raccourci commode, même si pas stricto sensu linguistique.
|
|
|
-->
|
|
|
|
|
|
|
|
|
<!--
|
|
|
"Notre définition conduit à des cas limites, notamment pour les mentions
|
|
|
qui n’ont pas de référent autonome en soi, mais qui en acquièrent un en contexte, comme par
|
|
|
exemple *banque centrale*. Dans ce type de cas, nous avons considéré qu’il y avait bien mention
|
|
|
d’EN, et nous avons donc annoté, pour peu que le contexte donné permette d’établir quelle est la
|
|
|
banque précise dont il est question, à la condition (arbitraire) supplémentaire que la mention
|
|
|
commence par une majuscule. Ainsi, une mention comme banque centrale sera systématiquement
|
|
|
ignorée. En revanche, les mentions primaires d’entités qui ne dépendent pas du contexte sont
|
|
|
annotées qu’elles aient ou non des majuscules, comme par exemple banque mondiale. Cette
|
|
|
situation se retrouve par exemple également dans le cas de l’annotation des noms d’universités.
|
|
|
Nous considérons ainsi qu’université de Nantes dénote une université située à Nantes, et nous
|
|
|
n’annotons que la ville de Nantes, alors qu’Université de Nantes fait directement référence à
|
|
|
l’organisation qu’est cette université, et nous annotons donc l’ensemble comme une organisation.
|
|
|
Il en va de même, par exemple, pour Université de Montpellier, puisqu’il n’existe pas d’organisation
|
|
|
unique qui corresponde à ce terme : dans ce cas, seul Montpellier est annoté, en tant que ville."
|
|
|
-->
|
|
|
|
|
|
### <a name="nest"></a>5. Imbrications d'EN
|
|
|
Lorsqu'une EN est imbriquée dans une autre, on annote les deux séquences, sauf si la plus courte dénoterait le même référent que la plus longue. Par exemple:
|
|
|
|
|
|
Université **1+ORG**
|
|
|
de
|
|
|
Tours **1/2+LOC**
|
|
|
|
|
|
mais dans [PERS _Emmanuel Macron_] on n'annote pas en plus _Emmanuel_ et _Macron_ comme PERS.
|
|
|
|
|
|
Les exceptions incluent:
|
|
|
* les localités inclues dans les noms de familles nobles (car considérées comme références historiquement trop lointaines), e.g. _[Valéry Giscard d'Estaing]_ (_Estaing_ n'est pas annoté comme LOC)
|
|
|
* les noms propres qui, par métonymie, deviennent des expressions polylexicales ou noms communs, e.g. _un gateau Saint-Honoré_, _un Paris-Brest_
|
|
|
|
|
|
Certaines conventions de nommage avec imbrication suggèrent un emploi de tirets dans les EN imbriquées. Idéalement, le tiret ne devrait pas être annoté comme faisant partie de l'imbrication, e.g.:
|
|
|
|
|
|
place **1+LOC**
|
|
|
Jean **1/2+PERS**
|
|
|
\- **1**
|
|
|
Jaurès **1/2**
|
|
|
|
|
|
Cependant, pour des raisons de tokenisation imparfaite, l'isolation du tiret peut s'avérer impossible. Dans ce cas, on tolère son inclusion dans l'EN imbriquée:
|
|
|
|
|
|
place **1+LOC**
|
|
|
Jean- **1/2+PERS**
|
|
|
Jaurès **1/2**
|
|
|
|
|
|
|
|
|
### <a name="coord"></a>6. Coordinations d'EN
|
|
|
Nous distinguons deux types de coordinations d'EN
|
|
|
- La conjonction de coordination fait partie du nom (par convention de nominalisation), comme dans *Association pour la lutte contre les maladies inflammatoires du foie **et** des voies biliaires* et doit donc être annotée avec tous les autres composants comme faisant partie d'**une seule EN**.
|
|
|
- La conjonction de coordination relie deux EN, faisant éventuellement intervenir la **factorisation** d'un composant commun aux deux EN, comme dans *Amérique du Nord et du Sud*. Dans ce cas, **deux occurrences** d'EN doivent être annotées, et le composant factorisé doit apparaître dans l'empan des deux, ce qui provoque une **superposition d'annotations**:
|
|
|
|
|
|
Amérique **1+LOC/2+LOC**
|
|
|
du
|
|
|
Nord **1**
|
|
|
et
|
|
|
du
|
|
|
Sud **2**
|
|
|
|
|
|
<!--
|
|
|
### 2. Types d'entités nommées
|
|
|
|
|
|
La définition d'une entité nommée et de ses frontières repose est notoirement difficile et controversée. C'est pourquoi certains choix détaillés doivent être répertoriés et appliqués systématiquement, afin d'assurer la cohérence de l'annotation. De tels choix, décrits dans la section dédiée à l'[arbre de décision](ne-decision-tree), sont définis par type d'EN. Ils reposent notamment sur ce qui a été observé lors la phase d'annotation pilote (sans véritable guide) pour les EN et sur nos propres intuitions.
|
|
|
-->
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
# Bibliographie
|
|
|
|
|
|
* [Bibliographie sur l'annotation d'entites nommées] (bibliographie-sur-l'annotation-d'entites-nommees) (avec un partage de lectures)
|
|
|
|
|
|
<a name="footnote1">1</a>: Dans les versions précédentes de ce guide la distinction entre les EN et les EP se faisait selon d'autres critères que nous avons finalement invalidés. Ces considérations obsolètes sont [consultables](pourquoi-les-en-ne-sont-pas-des-ep). |