... | ... | @@ -7,22 +7,22 @@ PARSEME-FR annotation guidelines - v1.0 |
|
|
|
|
|
- [Notations](notations)
|
|
|
- [Interaction with tokenization](tokenisation)
|
|
|
- [Top decision tree](Guide-annotation-PARSEME_FR-chapeau#Top_decision_tree), which serves to direct the annotator to either
|
|
|
- [Top decision tree](Guide-annotation-PARSEME_FR-chapeau#Top_decision_tree), which serves to direct the annotator to either:
|
|
|
- [the PARSEME v.1.1 guide for **verbal** MWE (external link)](http://parsemefr.lif.univ-mrs.fr/parseme-st-guidelines/1.1)
|
|
|
- [Guide PARSEME-FR d'identification des expressions polylexicales (EP) non verbales](Criteres)
|
|
|
- [Guide PARSEME-FR d'identification des entités nommées (EN)](ep_et_en)
|
|
|
- [the PARSEME-FR guide for named entities (EN)](ep_et_en)
|
|
|
- [the PARSEME-FR guide for other MWEs (not EN, and non verbal)](Criteres)
|
|
|
|
|
|
|
|
|
## Introduction
|
|
|
#### Nominal expressions
|
|
|
Pour les **expressions polylexicales nominales**, on considère une première distinction concernant la convention de nommage liant l'expression et la ou les entités auxquelles elle peut référer. L’intuition de départ est que
|
|
|
- (1) certaines unités polylexicales nominales fonctionnent comme des **noms directs d’entités spécifiques** (par ex. *Anna Duval*)
|
|
|
- (2) versus comme le nom d’un concept, qui peut être utilisé pour désigner des instances de ce concept (*arme blanche*).
|
|
|
For **nominal multi-word expressions*, we use a primary distinction concerning the naming convention that links the expression and the entity or entities the expression can refer to. The starting intuition is that:
|
|
|
- (1) **entity names** some nominal MWEs work as the **direct name of a specific entity** (for instance *Anna Duval*)
|
|
|
- (2) while others, **instantiable concept names**, work as the name of a concept, which can be used to refer to instances of this concept (e.g. *neural network*).
|
|
|
|
|
|
Dans ce deuxième cas, connaître les caractéristiques définitoires du concept permet de l’utiliser pour de futures instances, sans nouvel apprentissage. Alors que pour utiliser le nom “Anna Duval” pour une nouvelle personne, il faut apprendre une nouvelle convention de nommage (que cette personne a bien reçu ce nom).
|
|
|
De cette différence découle que l’on peut avoir un intérêt à coder un nom de concept dans un lexique, mais moins un nom d’entité spécifique.
|
|
|
In this latter case, knowing the defining characteristics of the concept enables one to use it for future instances, without requiring to learn any new naming convention. This contrasts with entity names: in order to use the name *Anna Duval* for a new person, one needs to learn a new naming convention linking the name and this new person, independently of the characteristics of the person.
|
|
|
|
|
|
Cette distinction entre nom d'entité (*Anna Duval*) et nom de concept (par ex. *arme blanche*) correspond à première vue à la distinction entre nom propre et nom commun. La distinction est facile à faire lorsque le nom d'entité est composé d'éléments lexicaux qui sont uniquement utilisés uniquement comme nom direct d'entités (par exemple les prénoms, les noms de famille). C'est ainsi que M. Erhman résume la notion de nom propre comme la "désignation d’une entité précise par le biais d’une description dont le sens joue un rôle mineur par rapport à la dénomination, opérant directement, du référent" (Ehrmann, 2008)). Mais une abondante littérature montre que la distinction nom propre / nom commun s'avère en réalité difficile à caractériser linguistiquement (voir en particulier Kleiber, 1981, Ehrmann 2008 pour un état de l'art). En effet au sein des noms directs d'entité, on peut distinguer:
|
|
|
This distinction between entity name and instantiable concept name is reminiscent of the proper noun versus common noun distinction, but this latter distinction is not so easy to define precisely. Of course, lexical items that are exclusively used for directly naming entities (e.g. the first and last names for people) are easy to classify as proper nouns. This is why Erhmann (2008) roughly defines proper nouns as the "désignation d’une entité précise par le biais d’une description dont le sens joue un rôle mineur par rapport à la dénomination, opérant directement, du référent" (the designation of a precise entity via a description whose meaning plays a minor role with respect to the denomination of the referent, which operates directly").
|
|
|
But an abundant litterature shows that the proper / common noun distinction reveals difficult to characterize in linguistic terms (we refer primarily to (Kleiber, 1981) and (Erhmann, 2008) for a state of the art). Indeed within entity names En effet au sein des noms directs d'entité, on peut distinguer:
|
|
|
- (1a) des noms d'entités faits d'éléments lexicaux entièrement dédiés au nommage direct d'entité (pour le dire vite: des noms propres), comme *Italie*, *Anna Duval*, *Microsoft*
|
|
|
- (1b) des noms d'entités comme l'*Association pour le traitement automatique des langues*, le *Jardin des Plantes*,
|
|
|
- qui d'un côté ont clairement une base descriptive, et donc la convention de nommage utilise les propriétés définitoires des éléments lexicaux composant ces noms
|
... | ... | @@ -41,6 +41,10 @@ Dans les annotations PARSEME-FR, nous avons souhaité conserver la distinction c |
|
|
Pour les cas de type (1c), les tests linguistiques sont plus proches du cas (2), nous les annotons comme EP.
|
|
|
|
|
|
|
|
|
Note that from this difference, it follows that dictionaries usually differentiate both cases, coding entity names would be endlessBecause coding entity names in a dictionary is This is why dictionaries encode names of concepts, and only names of entities that are famous in some way: coding entity names isIts follows from this difference that coding names of entities in a dictionary makes less sense than coding concept names, beingas the producti in a dictionary makes more senseDe cette différence découle que l’on peut avoir un intérêt à coder un nom de concept dans un lexique, mais moins un nom d’entité spécifique.
|
|
|
|
|
|
|
|
|
|
|
|
<-- privilégie comme distinction première la distinction entre les expressions qui, dans leur emploi le plus standard, dénomment directement une entité particulière et pas une classe d'entités (prototypiquement un "nom propre", par exemple le nom d'une personne, _Anna Lapeyre_) versus les séquences désignant un référant via une description "classifiante" (par exemple, _une femme en train de couper du pain_, _la députée dont je te parlais hier_), où il s'agit de repérer celles qui sont des expressions polylexicales car idiosyncratiques dans leur combinaison (il a perdu sa _carte bleue_).
|
|
|
|
|
|
Bien que cette distinction entre dénomination directe vs par description classifiante soit plus une distinction logique que linguistique, on la juge utile d'un point de vue applicatif et utile dans la manière d'appliquer les tests. En effet malgré des similitudes dans certains tests, on ne va pas forcément insister sur les mêmes difficultés dans les deux cas.
|
... | ... | |