|
|
**`THIS PAGE BELONGS TO THE` _`PUBLIC`_ `DOC OF PARSEME-FR`**
|
|
|
|
|
|
# Défis d'annotation en EN
|
|
|
|
|
|
[Retour au guide l'annotation des EN](ep_et_en)
|
|
|
|
|
|
### <a name="basedesc"></a>1. EN à base descriptive vs. descriptions définies
|
|
|
|
|
|
Selon les débats logiques, philosophiques et linguistiques rapportés par Ehrmann (2008), une **description définie** est une description
|
|
|
- qui renvoie à un *référent unique* du monde de discours, qu'il soit réel (*le Président de la République*) ou imaginaire (*l’actuel Roi de France*),
|
|
|
- telle que l'identification de son référent ne peut se faire par le sens seul de la description, mais nécessite des connaissances empiriques.
|
|
|
|
|
|
Par exemple, *la baleine* serait une expression définie dans *la baleine a heurté le bateau*, mais pas dans *la baleine est un mammifère*. Une description définie *complète* évoque le référent par ses seules ressources (e.g. *Le Président de la République Française en 2005*), alors qu'une description définie *incomplète* a pour ceci besoin des éléments du contexte (e.g. *le président*).
|
|
|
|
|
|
L'**unicité du référent** est donc ce qui rapproche les descriptions définies des noms propres (et des EN). Cependant, selon Ehrmann (2008), les descriptions définies fonctionnent différemment des noms propres. Pour comprendre et utiliser un nom propre, il faut connaı̂tre une **convention de nomination**, alors que pour interpréter une description définie, il faut surtout se baser sur "des connaissances extra-linguistiques, indiquant que tel ou tel objet ou entité possède les propriétés dénotées par le sens des composants de la description".
|
|
|
|
|
|
Cependant, certaines EN sont **à base descriptive**, c'est à dire elles sont des **descriptions définies conventionnalisées**. Le défi d'identification d'une EN à base descriptive est triple:
|
|
|
- Nous ne possédons pas la connaissance de toutes les conventions de nominalisation auquel peut se référer un énoncé. Par exemple l'*Association pour la protection des animaux sauvages* a pu être enregistrée sous ce nom sans que nous en ayant connaissance.
|
|
|
- Un nom propre (référant à un individu) peut coïncider avec une description référant à une classe; ceci est particulièrement difficile à trancher en cas d'ellipse e.g. *le conseil départemental*, *la mairie (de Paris)*.
|
|
|
- Une description définie qui coïncide avec un nom propre, peut être utilisée par un locuteur (en connaissance de cause ou pas) sans référence au processus de la conventionnalisation, e.g. *l'affaire des diamants*.
|
|
|
|
|
|
### 2. Critère de la majuscule
|
|
|
Comme mentionnée plus haut, le **processus de conventionnalisation** est crucial pour identifier un nom propre, mais il est parfois difficile de le connaître et de savoir si l'auteur y fait référence. Nous allons donc nous reposer sur les indices existant dans le texte pour le comprendre, à commencer par le critère de la *majuscule*, i.e. le fait que la séquence candidates ou l'une de ces variantes dans le même texte, s'écrit avec une majuscule initiale au milieu d'une phrase.
|
|
|
|
|
|
Notons cependant que, pour des raisons d'usage, un auteur peut ignorer l'emploi de la majuscule dans une EN. Ainsi, des EN candidates restent ambiguës avec des expressions définies non conventionnalisées d'une part, et les expressions polylexicales d'autre part.
|
|
|
|
|
|
Les exemples du premier type incluent _la **mairie de Paris**_ ou _le **tribunal correctionnel de Nanterre**_, où le nom propre (nom officiel d'une administration) coïncide avec avec une description référant à une classe (la mairie ou le tribunal d'une des villes de France). Les exemples du deuxième type incluent _le **conseil régional**_, _le **jardin des plantes**_, _le **commissariat à l'énergie atomique**_. Toutes ces occurrences pourraient être considérées comme EP pour des raisons de leur non-compositionnalité sémantique (cf. tests ID et PRED).
|
|
|
|
|
|
Il n'y a pas de solution pleinement satisfaisante dans ces cas, mais nos [arbres de décisions](ne-decision-tree) devraient permettre une annotation consistante.
|
|
|
|
|
|
<!-- et nous préconisons, comme plus haut, l'annotation de tels cas en tant que **EN**. -->
|
|
|
|
|
|
### 2. Sources externes
|
|
|
Si le critères de la majuscule n'est pas applicable, ou si l'empan d'une séquence candidate n'est pas claire, l'annotateur peut élargir son champ d'investigation à internet (e.g. les pages web officielles ou les pages Wikipédia titrées par la séquence candidate).
|
|
|
|
|
|
|
|
|
<!---
|
|
|
: EN au milieu et en début de phrase
|
|
|
Comme mentionnée plus haut, le **processus de conventionnalisation** est crucial pour identifier un nom propre, mais il est parfois difficile de le connaître et de savoir si l'auteur y fait référence. Nous allons donc nous reposer sur les indices existant dans le texte pour le comprendre, à commencer par le critère de la *majuscule* :
|
|
|
- Si une description définie apparaît au milieu d'une phrase, si sa conventionnalisation peut avoir lieu, et si elle est écrite avec une majuscule initiale (sans que ceci soit pour des raisons honorifiques - cf. section 2.4), on considère que ceci est une EN: _Il a évoqué l'**Affaire des disparus du Beach**._
|
|
|
- Si une telle description apparaît au début d'une phrase, ou si elle apparaît au milieu d'un phrase écrite en minuscule, on essaye de se reposer sur d'autres occurences de cette même description dans le même texte pour trancher.
|
|
|
- Si le statut reste ambigu, nous cherchons des indices dans des textes extérieures, notamment sur Internet (cf. section 2.5.).
|
|
|
- Si nous n'avons toujours pas d'indice permettant de trancher (notamment si une seule occurrence en minuscule initiale existe, et que les sources extérieures ne sont pas concluantes), nous préconisons l'annotation de tels cas en tant que **EN**. L'objectif serait de maximaliser le nombre d'entités nommées pouvant être concernés par la tâche de entity linking.
|
|
|
|
|
|
### 3. Critère de la majuscule: EN à base descriptive vs. EP
|
|
|
Pour des raisons d'usage, un auteur peut ignorer l'emploi de la majuscule dans une EN. Ainsi, des EN candidates restent ambiguës avec des expressions définies non conventionnalisées d'une part, et les expressions polylexicales d'autre part.
|
|
|
|
|
|
Les exemples du premier type incluent _la **mairie de Paris**_ ou _le **tribunal correctionnel de Nanterre**_, où le nom propre (nom officiel d'une administration) coïncide avec avec une description référant à une classe (la mairie ou le tribunal d'une des villes de France). Il n'y a pas de solution pleinement satisfaisante dans ce cas, et nous préconisons, comme plus haut, l'annotation de tels cas en tant que **EN**.
|
|
|
|
|
|
Les exemples du deuxième type incluent _le **conseil régional**_, _le **jardin des plantes**_, _le **commissariat à l'énergie atomique**_. Toutes ces occurrences pourraient être considérées comme EP pour des raisons de leur non-compositionnalité sémantique (cf. tests ID et PRED). Cependant, pour les mêmes raisons que plus haut (maximiser les ressources dédiées à entity linking) nous allons annoter ces candidats en tant que **EN** si l'unicité du référent peut être déduite du contexte, ou bien si le contexte ne permet pas de trancher.
|
|
|
|
|
|
### 4. Critère de la majuscule: EN à base descriptive vs. descriptions honorifiques
|
|
|
Notons que la majuscule initiale au milieu d'une phrase peut signaler non pas une EN, mais l'emploi honorifique d'une description définie. Par exemple *Le Président de la République* est un titre écrit en majuscule pour des raisons honorifiques. Puisque les titres de personnes ne rentrent pas dans la portée de notre annotation en EN, nous n'allons pas annoter cette occurrence. De même dans *votre Institution* l'emploi de la majuscule est honorifique et ne fera pas objet d'une annotation en EN. Evidemment des cas frontières seront certainement rencontrés, et nous pouvons alors appliquer les critères précédents en ignorant l'emploi de la majuscule. Dans des cas non tranchés préconisons toujours l'annotation du candidat en tant que EN.
|
|
|
|
|
|
### 5. Processus de conventionnalisation: recherche dans des sources extérieures
|
|
|
|
|
|
Pour aider le cas où le statut EN ou pas est très difficile à déterminer, en particulier, si l'on n'a qu'une seule occurrence en minuscule/en majuscule, l'annotateur peut élargir son champ d'investigation à internet:
|
|
|
|
|
|
- Existe-il une page officielle de l'institution ou une page qui lui est dédiée, e.g. dans le Wikipedia? Si oui, quel est le nom complet de l'organisation et inclut-t-il les déterminants/classifieurs évetuels?
|
|
|
- L'institution a-t-elle un sigle et les déterminants/classifieurs y sont-ils inclus?
|
|
|
- Le test de la majuscule (cf. section 2.2.) est-il concluant sur d'autres textes extérieurs (i.e. occurrences trouvées via un moteur de recherche) ?
|
|
|
|
|
|
-->
|
|
|
|
|
|
### <a name="span"></a>6. Fuzzy span of a named entity
|
|
|
With many NE candidates, especially those based on definite descriptions, the precise left and right span boundaries are often hard to establish. Three cases are notoriously hard to solve but our [decision trees](ne-decision-tree) should enable a mostly consistent annotation.
|
|
|
|
|
|
- **Classifiers**, i.e. common names describing the type of the object the NE refers to
|
|
|
* _centre hospitalier_ de Bar-le-Duc => a web page exists => NE
|
|
|
* _école_ Notre-Dame => the classifier "école" is to be kept => NE
|
|
|
* _salle_ Jean-Mathieu
|
|
|
* _laiterie_ Besnier
|
|
|
* _laiterie_ SOGECO
|
|
|
* _église_ Notre-Dame
|
|
|
* _hôtel_ Le Relais
|
|
|
* _palais_ Jacques Coeur
|
|
|
|
|
|
- **Determiners**
|
|
|
ADDITION by Marie, after adjudication skype aug 31st 2017: for determiners, the decision can be made on the basis of how external resources treat the determiner: do official pages of the entity use the determiner in the title?
|
|
|
* _Le_ Havre : yes
|
|
|
* _les_ États-Unis : no
|
|
|
* _le_ Togo : no
|
|
|
* _la_ Seine : no
|
|
|
* _les_ Capets : ??
|
|
|
* _le_ France (paquebot) : no
|
|
|
* _la_ mairie de Paris : no
|
|
|
* _l_'Académie (de Platon) : no
|
|
|
* _La_ Rochelle : yes
|
|
|
|
|
|
- **Adverbials**
|
|
|
* la Croix-Rouge française _de Blois_ => a web page exists (without the det)=> NE
|
|
|
* la mairie _de Paris_ => a web page exists without the det => NE
|
|
|
* les Etats-Unis _d'Amérique_
|
|
|
* le Stade _de France_
|
|
|
* Université Tous Ages _à Lyon_
|
|
|
|
|
|
|
|
|
### 7. Imbrications et ellipses
|
|
|
La prise en compte de la métonymie, par l'annotation du type primitif et final d'une EN pose des problèmes difficiles en lien avec le phénomène de l'ellipse. Par exemple un nom comme *FC Porto* devrait être annoté comme organisation, avec un nom de ville imbriqué: *[FC [Porto]_LOC]_ORG*. Cependant, dans une occurrence *Porto a marqué 3 buts* le nom *Porto* peut être vu comme ellipse du nom précédent, et donc incluant une imbrication: *[[Porto]_LOC]_ORG*, ou bien comme une simple métonimie: *[Porto]_ORG.LOC*. Dans ce cas nous allons systématiquement privilégier cette dernière interprétation pour sa plus grande simplicité:
|
|
|
|
|
|
FC **1+ORG**
|
|
|
Porto **1+ORG/2+LOC**
|
|
|
a
|
|
|
joué
|
|
|
hier
|
|
|
|
|
|
Porto **1+LOC.ORG**
|
|
|
a
|
|
|
marqué
|
|
|
|
|
|
|
|
|
<!----
|
|
|
Des problèmes plus durs à trancher concernent les ellipses qui ne coïncident pas avec des noms propres. Par exemple, si _la **mairie de Paris**_ a été précédemment annotée comme EN, quid de l'ellipse _la mairie_ ? Ces cas ont été tranchés de manière suivante
|
|
|
|
|
|
- Si une séquence candidate est une ellipse d'une EN, mais elle ne coïncide pas avec une autre EN, alors
|
|
|
- si elle n'inclue pas une EP, alors
|
|
|
- si elle s'écrit en minuscule, on ne l'annote **pas** (même si une autre occurrence dans le texte s'écrit en majuscule): _la mairie_, _le conseil_, _l'association d'insertion_, _l'association de l'**Indre-et-Loir**_
|
|
|
- si elle s'incit en majuscule, on l'annote (sauf dans le case d'emploi honorifique, cf. section 2.4): _la **Mairie**_, _l'**Association d'insertion**_, _l'**Association d'indre-et-Loir**_
|
|
|
- si elle coïncide avec une EP,
|
|
|
- si elle s'écrit en minuscule, on l'annote en tant que EP: _conseil général_
|
|
|
- si elle s'écrit en majuscule, on l'annote en tant que EN incluant une EP: _**Conseil général**_
|
|
|
-->
|
|
|
|
|
|
|
|
|
association
|
|
|
d'
|
|
|
insertion
|
|
|
|
|
|
la
|
|
|
mairie
|
|
|
|
|
|
l'
|
|
|
Association **1+ORG**
|
|
|
d' **1**
|
|
|
insertion **1**
|
|
|
|
|
|
la
|
|
|
Mairie **1+ORG**
|
|
|
|
|
|
conseil **1+LEX**
|
|
|
général **1**
|
|
|
|
|
|
Conseil **1+ORG**/**2+LEX**
|
|
|
Général **1**/**2**
|
|
|
|
|
|
le
|
|
|
jardin **1+PRED**
|
|
|
des **1**
|
|
|
plantes **1**
|
|
|
|
|
|
le
|
|
|
Jardin **1+LOC**/**2+PRED**
|
|
|
des **1**/**2**
|
|
|
plantes **1**/**2**
|
|
|
|
|
|
|