... | @@ -7,16 +7,33 @@ Guide d'annotation du projet PARSEME-FR - v1.0 |
... | @@ -7,16 +7,33 @@ Guide d'annotation du projet PARSEME-FR - v1.0 |
|
|
|
|
|
Le WP1 du projet PARSEME-FR est dédié à l'annotation des expressions polylexicales.
|
|
Le WP1 du projet PARSEME-FR est dédié à l'annotation des expressions polylexicales.
|
|
|
|
|
|
Pour les **expressions polylexicales nominales**, on considère une première distinction concernant la convention de nommage liant l'expression et la ou les entités auxquelles elle peut référer. L’intuition de départ est que certaines unités polylexicales nominales fonctionnent comme des **noms directs d’entités spécifiques** (par ex. *Anna Duval*) versus comme le nom d’un concept, qui peut être utilisé pour désigner des instances de ce concept (*arme blanche*). Dans ce deuxième cas, connaître les caractéristiques définitoires du concept permet de l’utiliser pour de futures instances, sans nouvel apprentissage. Alors que pour utiliser le nom “Anna Duval” pour une nouvelle personne, il faut apprendre une nouvelle convention de nommage (que cette personne a bien reçu ce nom).
|
|
Pour les **expressions polylexicales nominales**, on considère une première distinction concernant la convention de nommage liant l'expression et la ou les entités auxquelles elle peut référer. L’intuition de départ est que
|
|
|
|
- (1) certaines unités polylexicales nominales fonctionnent comme des **noms directs d’entités spécifiques** (par ex. *Anna Duval*)
|
|
|
|
- (2) versus comme le nom d’un concept, qui peut être utilisé pour désigner des instances de ce concept (*arme blanche*).
|
|
|
|
|
|
|
|
Dans ce deuxième cas, connaître les caractéristiques définitoires du concept permet de l’utiliser pour de futures instances, sans nouvel apprentissage. Alors que pour utiliser le nom “Anna Duval” pour une nouvelle personne, il faut apprendre une nouvelle convention de nommage (que cette personne a bien reçu ce nom).
|
|
De cette différence découle que l’on peut avoir un intérêt à coder un nom de concept dans un lexique, mais moins un nom d’entité spécifique.
|
|
De cette différence découle que l’on peut avoir un intérêt à coder un nom de concept dans un lexique, mais moins un nom d’entité spécifique.
|
|
|
|
|
|
Cette distinction entre nom d'entité (*Anna Duval*) et nom de concept (par ex. *arme blanche*) correspond à première vue à la distinction entre nom propre et nom commun. La distinction est facile à faire lorsque le nom d'entité est composé d'éléments lexicaux qui sont uniquement utilisés uniquement comme nom direct d'entités (par exemple les prénoms, les noms de famille). Mais une abondante littérature montre que la distinction nom propre / nom commun s'avère cependant difficile à caractériser linguistiquement (voir en particulier Kleiber, 1981, Ehrmann 2008 pour un état de l'art). Ceci est dû en particulier à l'existence:
|
|
Cette distinction entre nom d'entité (*Anna Duval*) et nom de concept (par ex. *arme blanche*) correspond à première vue à la distinction entre nom propre et nom commun. La distinction est facile à faire lorsque le nom d'entité est composé d'éléments lexicaux qui sont uniquement utilisés uniquement comme nom direct d'entités (par exemple les prénoms, les noms de famille). Mais une abondante littérature montre que la distinction nom propre / nom commun s'avère cependant difficile à caractériser linguistiquement (voir en particulier Kleiber, 1981, Ehrmann 2008 pour un état de l'art). En effet au sein des noms directs d'entité, on peut distinguer:
|
|
- de noms abstraits d’entités uniques non instanciables tels que des noms abstraits simples (“taxidermie”) ou des termes polylexicaux (“géométrie euclidienne”), que l'on ne classe pas traditionnellement comme noms propres, mais qui peuvent également être vus comme le nom direct d'une entité spécifique, dont les locuteurs doivent apprendre la convention de nommage
|
|
- (1a) des noms d'entités faits d'éléments lexicaux entièrement dédiés au nommage direct d'entité (pour le dire vite: des noms propres), comme *Italie*, *Anna Duval*, *Microsoft*
|
|
- à l'inverse, de noms d'entités comme l'*Association pour le traitement automatique des langues*, le *Jardin des Plantes*,
|
|
- (1b) des noms d'entités comme l'*Association pour le traitement automatique des langues*, le *Jardin des Plantes*,
|
|
- qui d'un côté ont clairement une base descriptive, et donc la convention de nommage utilise les propriétés définitoires des éléments lexicaux composant ces noms
|
|
- qui d'un côté ont clairement une base descriptive, et donc la convention de nommage utilise les propriétés définitoires des éléments lexicaux composant ces noms
|
|
- mais pour lesquels, d'un autre côté, l'établissement de la convention de nommage entre le nom et l'entité est sociologiquement typique d'un nom propre (ces entités sont baptisées ainsi).
|
|
- mais pour lesquels, d'un autre côté, l'établissement de la convention de nommage entre le nom et l'entité est sociologiquement typique d'un nom propre (ces entités sont baptisées ainsi).
|
|
|
|
- (1c) et aussi des noms abstraits d’entités uniques non instanciables tels que des noms abstraits simples (“taxidermie”) ou des termes polylexicaux (“géométrie euclidienne”), que l'on ne classe pas traditionnellement comme noms propres, mais qui peuvent également être vus comme le nom direct d'une entité spécifique, dont les locuteurs doivent apprendre la convention de nommage
|
|
|
|
|
|
|
|
En TAL, seul les cas (1a) et (1b) relèvent de ce qui est appelé **entité nommée** (il est notoire que le terme "entité nommée" ajoute de la confusion, cf. il désigne l'entité et pas le nom. L'expression linguistique *Anna Duval* est un nom d'entité et pas une entité nommée, mais nous conservons dans toute la suite le terme consacré "entité nommée").
|
|
|
|
En outre, les entités nommées en TAL sont associées à un type sémantique prédéfini.
|
|
|
|
|
|
|
|
Dans les annotations PARSEME-FR, nous avons souhaité conserver la distinction claire entre:
|
|
|
|
- les cas (1a)/(1b) d'un côté, annotés comme entités nommées (EN), via un guide spécifique
|
|
|
|
- plus précisément nous ne considérons que certains types sémantiques d'entités nommées: PERSON, ORGANIZATION, LOCATION, HUMAN PRODUCT, EVENT
|
|
|
|
- en outre, pour les entités nommées, nous considérons aussi bien le cas polylexical (*Anna Duval*) que le cas mot simple (*Italie*). En effet d'un point de vue applicatif, il aurait été dommage d'ignorer le cas mot simple
|
|
|
|
- et les cas (2), annotés comme "expressions polylexicales" (EP), à entendre comme expression polylexicale non EN
|
|
|
|
|
|
|
|
Pour les cas de type (1c), les tests linguistiques sont plus proches du cas (2), nous les annotons comme EP.
|
|
|
|
|
|
Le guide
|
|
Nous arrivons à un guide d'annotation organisé comme suit:
|
|
|
|
- un arbre décision "chapeau", aiguillant vers
|
|
|
|
|
|
privilégie comme distinction première la distinction entre les expressions qui, dans leur emploi le plus standard, dénomment directement une entité particulière et pas une classe d'entités (prototypiquement un "nom propre", par exemple le nom d'une personne, _Anna Lapeyre_) versus les séquences désignant un référant via une description "classifiante" (par exemple, _une femme en train de couper du pain_, _la députée dont je te parlais hier_), où il s'agit de repérer celles qui sont des expressions polylexicales car idiosyncratiques dans leur combinaison (il a perdu sa _carte bleue_).
|
|
privilégie comme distinction première la distinction entre les expressions qui, dans leur emploi le plus standard, dénomment directement une entité particulière et pas une classe d'entités (prototypiquement un "nom propre", par exemple le nom d'une personne, _Anna Lapeyre_) versus les séquences désignant un référant via une description "classifiante" (par exemple, _une femme en train de couper du pain_, _la députée dont je te parlais hier_), où il s'agit de repérer celles qui sont des expressions polylexicales car idiosyncratiques dans leur combinaison (il a perdu sa _carte bleue_).
|
|
|
|
|
... | | ... | |