THIS PAGE BELONGS TO THE
PUBLIC
DOC OF PARSEME-FR
Identification manuelle des expressions polylexicales non verbales
Revenir à la page sommet du guide d'annotation
Aller aux critères pour les entités nommées
Le but de ce document est de donner une méthodologie simple pour aider les annotateurs experts à identifier les expressions polylexicales non verbales d'un texte. Une expression polylexicale (EP) est une séquence de mots avec un certain degré de non-compositionalité. Nous précisons "non verbales" parce que les expressions verbales ont été annotées en utilisant le guide multilingue de PARSEME v1.1.
Le principe général de ce guide est que sauf mention contraire chaque critère utilisé est un critère suffisant pour classer une séquence comme EP. Ainsi pour expression candidate c déjà identifiée comme n'étant pas une entité nommée (cf. le guide chapeau), on lui applique successivement différents tests de critères et dès lors qu'un des critères marche, on marque la séquence comme une EP, en indiquant le critère utilisé.
L'utilisation de critères suffisants est voulue comme une solution au problème notoire d'identification des EP, une fois sorti des cas d'école. Il n'y a pratiquement aucun critère qui soit une condition nécessaire. Une solution classique est d'imposer qu'un certain nombre de critères soient satisfaits pour conclure à EP, mais ce nombre est arbitraire, et le poids de chaque critère est difficile à juger. Nous avons donc préféré considérer qu'un seul critère est suffisant. Une EP pourra satisfaire un ou plusieurs critères, et on obtient ainsi un lexique d'EPs ayant différents degrés d'idiomaticité.
Nous avons recensé quelques cas déjà tranchés grâce aux critères ci-dessous, pour accélérer et uniformiser l'annotation.
Structures non-traitées
On n'annote que les cas où l'EP forme un sous-arbre syntaxique (donc connecté). Cette contrainte implique que l'on ne prend pas des séquences comme ce N-là où les 2 composants ce et là dépendraient syntaxiquement du N, qui lui n'est pas figé, donc les 2 composants ne forment pas formellement un sous-arbre.
Quels composants annoter?
Elements lexicalisés
Les éléments marqués comme appartenant à une expression polylexicale doivent être les éléments figés ou lexicalisés. Autrement dit, les enlever ou les remplacer reviendrait à ne plus avoir d'EP.
en termes économique : seulement en et termes seront annotés comme appartenant à une EP. Le modifieur du nom termes ayant une distribution libre, on ne l'inclut dans l'EP.
le respect des droits de l'homme : seulement droits, de, le et hommes seront annotés comme appartenant à une EP. Le déterminant du nom droits ayant une distribution libre, on ne l'inclut dans l'EP.
Non inclusion des prépositions régies
Les prépositions régies, c'est-à-dire, asémantiques et syntaxiquement sélectionnées par leur gouverneur, ne sont pas incluses dans l'EP.
En effet, comme pour les verbes simples, on suppose que les prépositions sélectionnées par les EP sont des marqueurs de valence, et ne sont pas à inclure dans l'EP, et ce même dans le cas où le SP est obligatoire.
- en dépit de cet argument : on annote uniquement en dépit, qui est considéré comme un adverbial complexe qui sélectionne la préposition de (on suppose cette information présente dans un lexique valenciel).
- au sein du comité : on n'annote pas la préposition de sélectionnée par le nom sein
Cette convention ne s'applique pas dans le cas X + préposition, où au moins un autre critère d'EP s'applique parmi les critères de forme (CRAN, MORPHO, IRREG), et ne pas inclure la préposition reviendrait à ne plus avoir d'EP.
On annote, d'après cette exception, les quelques cas de noms sans déterminant suivis d'une préposition régie:
- suite à : la distribution externe est atypique (N nu non temporel modifieur)critère IRREG, critère MORPHO: *suites à (cf. critères)
- histoire de : identique à suite à
- lors de: lors est cranberry, critère CRAN (cf. critères)
Inclusion ou pas du complémenteur que en fin d'EP
Pour le complémenteur que, dans le cas général on ne l'inclut pas à l'EP, sauf pour les séquences ADV + que:
On suit le choix de ne pas inclure la prep ou le complémenteur pour les séquences préposition + de/que, car souvent la prep peut apparaître seule, avec le même sens (vrai par exemple pour avant, après, près, ...
- PREP+que : avant que , avant de : ne sont pas annotés comme des EP. On considère que avant sous-catégorise un de+GN ou de+Infinitive ou un que+Phrase, optionnel.
Pour les séquences adverbe + que on a l'impression d'un figement plus fort car souvent l'adverbe seul n'a pas le même sens:
- alors que : l'adverbe alors n'a jamais le sens contrastif que peut avoir alors que
- bien que : idem bien n'a pas de sens concessif
On choisit d'une manière générale d'inclure le complémenteur que pour les séquences adverbe + que
Quand inclure un déterminant ?
Un déterminant est inclus dès lors que le critère de figement du déterminant est satisfait (cf. figement du determinant), sauf dans les cas suivants:
-
alternance entre le det et un possessif reprenant un SP:
- en l'absence de preuves / en l'absence de la présidente / en son absence
-
si le det peut varier mais que la variation du det modifie d'autres critères (comme LEX), alors on inclut :
- à l'époque passer à "à cette époque" donne la possibilité de varier le N (à ce moment / période ...)
Critères suffisants pour l'identification manuelle d'une EP
L'idéal serait d'avoir des critères sémantiques pour repérer la non-compositionalité sémantique d'une séquence candidate. Cependant, il est souvent très difficile de les mettre en oeuvre de manière systématique et reproductible. C'est pour cela que les linguistes ont mis au point un certain nombre de critères formels qui permettent d'approximer cette non-compositionalité sémantique. Plus une expression satisfait de critères, plus elle a de chance d'être purement non-compositionnelle.
Les critères retenus pour l'annotation sont donnés ci-dessous. Chaque critère est associé à un identifiant afin de pouvoir y faire référence lors de l'annotation.
Note importante: les critères reposent le plus souvent sur des tests d'impossibilité. Ils consistent à effectuer une opération sur la séquence candidate (substitution le plus souvent, insertion). L'impossibilité doit se lire de la manière suivante: soit la séquence produite est impossible (symbole *) soit le changement de sens de la séquence est imprévisible (symbole #).
-
- CRAN(CRAN) la séquence contient un mot cranberry - à l'instar de, au fur et à mesure, parce que
-
- 2.1. [ID] la tête syntaxique de l'expression n'est pas "hyperonyme" de l'expression - cordon bleu != cordon
- 2.2 [PRED] on ne peut pas trouver une relation de prédicativité - *une arme qui est blanche
-
- IRREG(IRREG) structure morphosyntaxique irrégulière - à-coup, en outre, tire-bouchon
-
- 4.1 [LEX] un élément plein ne peut être remplacé par aucun voisin - eau/#boisson de vie
- 4.3 [DET] le déterminant est figé - garde du corps,
- 4.4 [ZERO] possibilité de déterminant zéro : à terme, à domicile alors que l'on a la variante avec déterminant qui est possible à son domicile
-
- 5.1 [MORPHO] on ne peut pas changer les traits morphosyntaxiques - de dernière/*s minute/*s
- 5.2 [INSERT] on ne peut pas insérer de modifieur - (*très) bien que, étoile (*très) filante
- 5.3 [SYNT] impossibilité de certaines variations syntaxiques pour certains patrons: (i) Nom Adj -> * Nom de (Det) N-adj (conseil régional -> * conseil de (la) région); (ii) Nom1 - Nom2 -> * Nom2 - Nom1 (hôtel - restaurant -> * restaurant - hôtel)