... | ... | @@ -16,7 +16,7 @@ PARSEME-FR annotation guidelines - v1.0 |
|
|
|
|
|
## Background: verbal MWEs of PARSEME and distinction between named entities and MWEs
|
|
|
|
|
|
#### Verbal expressions
|
|
|
### Verbal expressions
|
|
|
|
|
|
**Verbal** multi-word expressions were the focus of the [_PARSEME shared task 1.1 (2018)_](http://multiword.sourceforge.net/sharedtask2018/), organized within the international PARSEME (COST) project. The [PARSEME v1.1 guide for verbal MWEs](http://parsemefr.lif.univ-mrs.fr/parseme-st-guidelines/1.1) was designed and used to produce annotations for 20 languages, including French. For PARSEME-FR, we have thus focused on other MWEs (non verbal MWEs). Members of the French spin-off project PARSEME-FR were much involved in the multilingual PARSEME guide, so both guides are similar in spirit.
|
|
|
|
... | ... | @@ -24,7 +24,7 @@ PARSEME-FR annotation guidelines - v1.0 |
|
|
|
|
|
<!--Les expressions polylexicales **verbales** ont été traitées à part, dans le projet PARSEME international, dans le cadre de la production des corpus pour la [_PARSEME shared task 1.1 (2018)_](http://multiword.sourceforge.net/sharedtask2018/). Ainsi, nous avons adopté le guide externe [PARSEME v.1.1](http://parsemefr.lif.univ-mrs.fr/parseme-st-guidelines/1.1) pour l'identification des expressions verbales. Les membres du projet français PARSEME-FR ont été très impliqués dans le projet international PARSEME et notamment dans la rédaction du guide d'annotation d'expressions verbales. Par conséquent, les deux guides, PARSEME (expressions verbales) et PARSEME-FR (expressions non verbales) sont compatibles et similaires dans l'esprit.-->
|
|
|
|
|
|
#### Nominal expressions : distinguishing "named entities" from other MWEs
|
|
|
### Nominal expressions : distinguishing "named entities" from other MWEs
|
|
|
|
|
|
For **nominal multi-word expressions**, we use a primary distinction concerning the naming convention that links the expression and the entity or entities the expression can refer to. The starting intuition is that one can distinguish:
|
|
|
- **(1)** **entity names** : some nominal MWEs work as the **direct name of a specific entity** (for instance *Anna Duval*)
|
... | ... | @@ -63,12 +63,59 @@ Bien que cette distinction entre dénomination directe vs par description classi |
|
|
|
|
|
|
|
|
## Top decision tree
|
|
|
TODO marie: update the top decision tree, and translate into English
|
|
|
|
|
|
In running texts, annotators spot candidate linguistic expressions that might fall into the named entity or MWE category. In case of doubts, annotators must follow the decision tree provided below.
|
|
|
|
|
|
### Candidate expressions
|
|
|
There are two types of candidates for a potential annotation:
|
|
|
- (1) single token or sequence of tokens that the annotator perceives potentially as the name of an entity of semantic type PERSON, ORGANIZATION, LOCATION, HUMAN PRODUCT or EVENT
|
|
|
- (2) a sequence of several tokens, whose meaning is at first sight obtained idiosyncratically and/or for which there components cannot vary freely (at the morphological or lexical level, substitutions that are normally possible are not acceptable for this sequence, or produce an unexpected change of meaning)
|
|
|
|
|
|
Note for some candidates, it might be unclear at the beginning whether they will be tagged as named entity or MWE, and what is their exact span. The annotators should decide using the decision tree.
|
|
|
|
|
|
### decision tree
|
|
|
|
|
|
For a given candidate expression c:
|
|
|
|
|
|
0. c has the distribution of a verb (or VP, or sentence) ?
|
|
|
- NO => continue
|
|
|
- YES => go to the [guide for verbal MWEs (external link)](http://parsemefr.lif.univ-mrs.fr/parseme-st-guidelines/1.1) if c is polylexical, otherwise EXIT
|
|
|
|
|
|
1. c has the distribution of a noun (or NP) ?
|
|
|
TO BE CONTINUED
|
|
|
NON => aller au guide des EP non verbales si polylexical, sinon sortir
|
|
|
OUI => continuer
|
|
|
2. [REF_SPECIF] : La séquence est-elle utilisée en contexte pour référer à une entité spécifique du discours ?
|
|
|
NON => aller au guide des EP non verbales si polylexical, sinon sortir
|
|
|
Emploi générique:
|
|
|
Une arme blanche est une arme tranchante, perforante ou contondante dont la mise en œuvre n'est due qu'à la force humaine…
|
|
|
Le conseil départemental est l'assemblée délibérante d'un département
|
|
|
Utilisation d’un pluriel pour désigner tous les objets d’une classe entièrement définie par l’expression:
|
|
|
Les armes blanches sont interdites dans un avion
|
|
|
Les hommes roux sont rares
|
|
|
Utilisation d’un pluriel pour désigner plusieurs objets d’une classe qui en a plus:
|
|
|
J’ai acheté deux stylos plume.
|
|
|
A Maisons-Alfort il y a plusieurs Pierres Martins => pb ici d’aller au guide EP ??? En faire un cas particulier ?
|
|
|
OUI ou PAS SUR=> CONTINUER
|
|
|
Exemple: Il a utilisé une arme blanche
|
|
|
Exemple: J’ai vendu ma voiture à Anna Duval
|
|
|
Le désormais célèbre réalisateur du documentaire Merci patron ! a réussi à rattraper un retard de presque dix points"
|
|
|
Elle a enseigné la physique quantique
|
|
|
La famille Dupont a déménagé
|
|
|
Les Duponts ont déménagé (désigne une famille)
|
|
|
Le conseil départemental a voté le budget le vendredi dernier
|
|
|
J’ai vu un petit chaperon rouge sur la table (référence à une coiffe)
|
|
|
J’ai vu un petit chaperon rouge s’enfuir (référence métonymique à une enfant)
|
|
|
Le petit chaperon rouge de l’histoire célèbre m’a toujours été sympathique (référence spécifique au personnage)
|
|
|
Dans la suite, on note Ent l’entité spécifique à laquelle réfère l’expression candidate Exp.
|
|
|
3. [TYP_SEM] L’entité est-elle une personne, une organisation, un lieu, un produit humain, un évènement?
|
|
|
OUI => aller au guide des EN
|
|
|
Si pas EN, aller au guide des EP si polylexical, sinon sortir
|
|
|
NON => aller au guide des EP si polylexical, sinon sortir
|
|
|
|
|
|
<!--Nous mettons aussi à disposition une liste de [cas difficiles tranchés grâce aux critères](cas_deja_traites)-->
|
|
|
|
|
|
La marche à suivre générale pour annoter est la suivante:
|
|
|
<!--La marche à suivre générale pour annoter est la suivante:
|
|
|
|
|
|
**Pour une séquence de plusieurs tokens, pour laquelle on a l'intuition que le sens de l'expression est obtenu de manière idiosyncratique et/ou qu'il y a sélection non libre des parties (au niveau morphologique ou lexical, des substitutions normalement faisables ne sont pas possibles ou produisent un changement de sens inattendu), on suit l'arbre suivant:**
|
|
|
|
... | ... | @@ -103,3 +150,4 @@ On a cela dit le cas proche de b) suivant: |
|
|
En outre, on a des situations intermédiaires de séquences ayant les 2 types de comportement (a) et (b/b') (i.e. **à la fois dénomination officielle d'une entité, mais avec une base descriptive**). Dans ces cas **on privilégie l'aspect dénomination** (et on code EN). Si on hésite sur le fait qu'une expression fonctionne comme la dénomination directe d'une entité (son "nom") on utilise l'arbre de décision du guide des EN.
|
|
|
|
|
|
Enfin, pour les entités nommées des types sémantiques retenus (personne, organisation, lieu, évènement, produit humain), on inclut également des **mots simples**, faisant ainsi une entorse au focus sur les expressions polylexicales. Il a semblé en effet utile d'un point de vue applicatif de ne pas distinguer par exemple les mentions _M. Pierre Corbère_, et _Corbère_.
|
|
|
--> |
|
|
\ No newline at end of file |