|
|
Identification manuelle des expressions polylexicales
|
|
|
----------------------------------------------------------------------------------
|
|
|
|
|
|
[Revenir à la page sommet du guide d'annotation](Guide-annotation-ep-en)
|
|
|
|
|
|
[Aller aux critères pour les entités nommées](ep_et_en)
|
|
|
|
|
|
<!-- [[_TOC_]]
|
|
|
-->
|
|
|
|
|
|
Le but de ce document est de donner une méthodologie simple pour aider les annotateurs experts à identifier et catégoriser morphosyntaxiquement les expressions polylexicales d'un texte. Une expression polylexicale (EP) est une séquence de mots avec un certain degré de non-compositionalité.
|
|
|
|
|
|
1. On identifie par l'intuition une séquence dans le texte susceptible d'être une EP
|
|
|
2. On la catégorise morphosyntaxiquement.
|
|
|
3. On lui applique successivement différents critères (certains étant dépendants de la catégorie morphosyntaxique)
|
|
|
4. Dès lors qu'un des critères (autre que LEXflou) marche, on marque la séquence comme une EP, en indiquant le critère utilisé (cf. [guide du format d'annotation](Format)). **Attention**: on prend pour convention d'appliquer les critères spécifiques (OP, seV, CL) en premier.
|
|
|
5. **A TESTER**: si aucun critère strict ne fonctionne, mais que le critère LEXflou fonctionne, alors on marque LEXflou (ce qui permettra de se faire une idée des cas où LEXflou est le seul critère utilisable)
|
|
|
|
|
|
<!-- On notera que les noms propres polylexicaux et autres entités nommées ne sont pas à part. On leur appliquera les mêmes critères d'identification et de catégorisation qu'aux noms et adjectifs composés. -->
|
|
|
L'application de critères à certaines [entités nommées](ep_et_en) est détaillée dans une page spécifique.
|
|
|
|
|
|
On notera que sauf mention contraire, chaque critère est suffisant à classer une séquence comme EP. Le lexique des EP ainsi obtenues devra contenir un recensement de tous les critères vérifiés par une EP, et des sous-lexiques pourront être extraits, en étant plus ou moins restrictifs sur les critères nécessaires, et leur nombre. Cette méthodologie est voulue comme une solution au problème notoire d'identification des EP, une fois sorti des cas d'école.
|
|
|
|
|
|
Nous avons recensé [quelques cas déjà tranchés grâce aux critères ci-dessous](cas_deja_traites), pour accélérer et uniformiser l'annotation.
|
|
|
|
|
|
<!--
|
|
|
Le document est découpé de la manière suivante:
|
|
|
- [portée de l'annotation](portee-annotation-ep)
|
|
|
- [Catégorisation morphosyntaxique](cat-morphosyntaxique)
|
|
|
- [Restriction aux EP formant un arbre](restriction-arbre)
|
|
|
- [Critères suffisants](criteres-suffisants)
|
|
|
-->
|
|
|
|
|
|
# Quels composants annoter?
|
|
|
|
|
|
### Elements lexicalisés
|
|
|
|
|
|
Les éléments marqués comme appartenant à une expression polylexicale doivent être les éléments _figés_ ou _lexicalisés_. Autrement dit, les enlever ou les remplacer reviendrait à ne plus avoir d'EP.
|
|
|
|
|
|
- _Luc **prend** une **décision**_ : seulement _prend_ et _décision_ seront annotés comme appartenant à une EP. La distribution des déterminants du nom _décision_ étant libre, on n'inclut pas le déterminant _un_ dans l'EP.
|
|
|
|
|
|
### Non inclusion des prépositions régies
|
|
|
|
|
|
Les prépositions régies, c'est-à-dire, asémantiques et syntaxiquement sélectionnées par leur gouverneur, ne sont pas incluses dans l'EP.
|
|
|
|
|
|
En effet, comme pour les verbes simples, on suppose que les prépositions sélectionnées par les EP sont des marqueurs de valence, et ne sont pas à inclure dans l'EP, et ce même dans le cas où le SP est obligatoire.
|
|
|
|
|
|
|
|
|
- _compter sur_ : On n'annoterait pas la préposition _sur_ sélectionnée par le verbe simple _compter_ dans _Luc **compte** sur Marie_
|
|
|
- _Luc **tape sur le système** de Marie_ : on décide de ne pas annoter la préposition _de_ sélectionnée par l'EP _taper sur le système_. Seule la séquence _tape sur le système_ est annotée.
|
|
|
- _Luc **a besoin** d'une fourchette_ : on annotera uniquement _avoir besoin_ et pas la préposition _de_.
|
|
|
|
|
|
On applique la convention précédente aux prépositions complexes.
|
|
|
|
|
|
- _**en dépit** de cet argument_ : on annote uniquement *en dépit*, qui est considéré comme un adverbial complexe qui sélectionne la préposition *de* (on suppose cette information présente dans un lexique valenciel).
|
|
|
|
|
|
|
|
|
Cette convention **ne s'applique pas** dans le cas X + préposition, où au moins un autre critère d'EP s'applique parmi les critères de forme (CRAN, MORPHO, IRREG), **et** ne pas inclure la préposition reviendrait à ne plus avoir d'EP.
|
|
|
|
|
|
On annote, d'après cette exception, les quelques cas de noms sans déterminant suivis d'une préposition régie:
|
|
|
- _suite à_ : la distribution externe est atypique (N nu non temporel modifieur)critère IRREG, critère MORPHO: _*suites à_ (cf. critères)
|
|
|
- _histoire de_ : identique à _suite à_
|
|
|
- _lors de_: _lors_ est cranberry, critère CRAN (cf. critères)
|
|
|
|
|
|
Une autre exception concerne le cas d'EP comportant un verbe opérateur (notion plus générale que verbe support, voir infra) et un nom prédicatif, introduit par une prep: on annote dans ce cas la prep régie:
|
|
|
- _**procéder à** une **enquête**_
|
|
|
- _**bénéficier de** nombreux **soins**_
|
|
|
|
|
|
|
|
|
### Inclusion ou pas du complémenteur _que_ en fin d'EP
|
|
|
|
|
|
Pour le complémenteur _que_, dans le cas général on ne l'inclut pas à l'EP, sauf pour les séquences ADV + _que_:
|
|
|
|
|
|
On suit le choix de ne pas inclure la prep ou le complémenteur pour les séquences _préposition + de/que_, car souvent la prep peut apparaître seule, avec le même sens (vrai par exemple pour _avant, après, près, ..._
|
|
|
- PREP+que : _avant que_ , _avant de_ : ne sont pas annotés comme des EP. On considère que _avant_ sous-catégorise un _de+GN_ ou _de+Infinitive_ ou un _que+Phrase_, optionnel.
|
|
|
|
|
|
|
|
|
Pour les séquences _adverbe + que_ on a l'impression d'un figement plus fort car souvent l'adverbe seul n'a pas le même sens:
|
|
|
- _alors que_ : l'adverbe _alors_ n'a jamais le sens contrastif que peut avoir _alors que_
|
|
|
- _bien que_ : idem _bien_ n'a pas de sens concessif
|
|
|
|
|
|
**On choisit d'une manière générale d'inclure le complémenteur _que_ pour les séquences _adverbe + que_**
|
|
|
|
|
|
|
|
|
### Quand inclure un déterminant ?
|
|
|
|
|
|
Un déterminant est inclus dès lors que le critère de figement du déterminant est satisfait (cf.
|
|
|
|
|
|
[[Criteres-lexicaux#43-figement-total-du-déterminant-à-lintérieur-de-la-séquence-en-incluant-le-déterminant-zéro-noté-e-det]])
|
|
|
|
|
|
,sauf dans les cas suivants:
|
|
|
|
|
|
- alternance entre le det et un possessif reprenant un SP:
|
|
|
- _**en** l'**absence** de preuves_ / _**en** l'**absence** de la présidente_ / _**en** son **absence**_
|
|
|
|
|
|
- si le det peut varier mais que la variation du det modifie d'autres critères (comme LEX), alors on inclut : _**à l'époque**_ passer à "à cette époque" donne la possibilité de varier le N (à ce moment / période ...)
|
|
|
|
|
|
<!-- # Les multi-token words (traduction de la shared task parseme)
|
|
|
|
|
|
Plusieurs tokens peuvent former un seul mot comme les abréviations, des mots avec des séparateurs "accidentels"(ex. _p._ pour "page", *aujourd'hui*). Dans ce cas on parle de Multiword Tokens. Ceux-ci ne sont pas annotés comme EP.-->
|
|
|
|
|
|
# Catégorisation morphosyntaxique
|
|
|
|
|
|
Une EP correspond en général à une unité lexicale à laquelle on peut associer une catégorie morphosyntaxique: la séquence se comporte syntaxiquement comme telle.
|
|
|
Exemples:
|
|
|
- *faire le poids* --> verbe
|
|
|
- *pomme de terre* --> nom
|
|
|
- *bien que* --> conjonction
|
|
|
- *de dernière minute* --> adjectif
|
|
|
- *en effet* --> adverbe
|
|
|
- *de la* --> déterminant
|
|
|
- *mis à part* --> préposition
|
|
|
|
|
|
On détermine la catégorie morphosyntaxique d'une séquence candidate d'après sa distribution syntaxique. Une méthode simple est de substituer la séquence candidate par un mot simple de sens proche. La catégorie morphosyntaxique de la séquence candidate sera celle du mot simple.
|
|
|
|
|
|
Par exemple, dans la phrase _**À part** les courgettes, Luc aime tous les légumes_, on peut remplacer la séquence _à part_ par la préposition _sauf_: _**sauf** les courgettes, Luc aime tous les légumes_. On peut donc catégoriser _à part_ comme une préposition.
|
|
|
|
|
|
Il existe cependant des cas où il est difficile de trouver un mot simple pour substituer la séquence. Il existe aussi des cas problématiques avec certaines expressions de structure *Prép GN* dont ont ne sait pas si elles sont adjectifs ou adverbes (cf. section catégorisation de la page spécifique aux [adverbiaux](Criteres_adverbiaux)).
|
|
|
|
|
|
|
|
|
<!--
|
|
|
|
|
|
Dans la très grande majorité des cas, on peut trouver cette catégorie à partir du patron morphosyntaxique de l'expression. Par exemple,
|
|
|
- V (Prep) (Det) (A) N (A) -> verbe
|
|
|
- A N, N A, (A) N (A) prep GN -> nom
|
|
|
- Prep GN -> adverbe ou adjectif
|
|
|
- ADV que -> conjonction
|
|
|
- Prep (Det) N de -> préposition
|
|
|
|
|
|
Cependant, il est parfois plus sûr de se servir de tests linguistiques pour déterminer sa catégorie morphosyntaxique, en particulier pour les séquences de structure "irrégulière" pour une catégorie donnée (_en outre_ (Prep Adv) -> adverbe, _à-coup_ (Prep N) -> nom). On peut trouver des exemples dans les sections sur les mots grammaticaux complexes et les adverbiaux. Un test souvent efficace et rapide est la substitution de la séquence par un mot simple de la catégorie grammaticale dans le contexte de la phrase (mais ça ne marche pas toujours).
|
|
|
|
|
|
-->
|
|
|
|
|
|
<!--
|
|
|
Cette classification des EP par catégories morphosyntaxiques basée sur des critères formels peut encore être affinée. Par exemple, pour les verbes, les linguistes aiment à distinguer les expressions idiomatiques (_Luc fait le poids_) des constructions à verbe support (CVS) (_Luc fait une promenade_), car, dans ces dernières, un des composants (le nom, complément objet du verbe) garde son sens, alors que le verbe a un sens neutre.
|
|
|
<!-- Un des tests qui marche le mieux est la réduction de la CVS en un groupe nominal avec effacement du verbe support (_Luc fait une promenade_ => _La promenade de Luc fut agréable_ vs. _Luc fait le poids_ => _\#Le poids de Luc_) ou la substitution de la construction par un verbe morphologiquement lié (s'il en existe un: _Luc se promène_). Mais il en existe d'autres: cf. la section sur les expressions verbales.
|
|
|
Cependant, nous ne rentrerons pas dans cette discussion qui ne nous semble pas prioritaire pour notre tâche d'identification. Une classification a posteriori plus fine pourra être réalisée une fois le codage des propriétés des expressions réalisé.
|
|
|
|
|
|
-->
|
|
|
|
|
|
# Structures non-traitées
|
|
|
|
|
|
On n'annote que les cas où il existe une forme "canonique" (sans extraction, sans modification de type déterminant complexe etc...) où l'EP forme un sous-arbre syntaxique (donc connecté). Par exemple:
|
|
|
- _Luc **met** Lea **en garde**_ : la forme canonique est _mettre en garde_; les 3 composants sont connectés, avec _mettre_ comme racine
|
|
|
- _Paul a **pris** une multitude de **décisions** inutiles_: la forme canonique est _prendre une décision_ les deux composants sont connectés
|
|
|
|
|
|
Ainsi on garde bien les EP admettant des variations syntaxiques comme les constructions à verbe support, même en cas d'extraction du nom, ou de déterminant complexe sur le nom.
|
|
|
|
|
|
Cette contrainte implique que l'on ne prend pas des séquences comme _ce N-là_ ni _faire du_ dans _faire du INSTRUMENT/SPORT_, car leurs formes canoniques ne forment pas des sous-arbres de dépendances 100% lexicalisés. En particulier:
|
|
|
- _ce N-là_ : les 2 composants _ce_ et _là_ dépendraient syntaxiquement du N, qui lui n'est pas figé, donc les 2 composants ne forment pas formellement un sous-arbre
|
|
|
- _faire du INSTRUMENT_ comme _faire du (piano+violon+...)_: les deux composants _faire_ et _du_ ne sont pas connectés directement (_faire_ est tête de INSTRUMENT et _du_ est dépendant de INSTRUMENT).
|
|
|
|
|
|
<!--
|
|
|
|
|
|
Certains mots ont une contrainte de coocurrence avec d'autres mots (_ce N-là_, _ne V pas_, _personne ne V_, _ne V que_, _faire du + N-activité_: _piano_, _vélo_, etc._), ou d'autres syntagmes (_celui + PP_, _celui + relative_), mais sans former pour autant un sous-arbre de dépendances 100% lexicalisé.
|
|
|
|
|
|
On décide dans un premier temps de ne pas annoter ces cas.
|
|
|
On se restreint donc aux cas où les composants forment un (sous-)arbre de dépendances, dont on peut identifier la tête syntaxique.
|
|
|
|
|
|
Par exemple:
|
|
|
_mettre en garde_ : les 3 composants sont connectés, avec _mettre_ comme racine
|
|
|
_ce N-là_ : les 2 composants _ce_ et _là_ dépendraient syntaxiquement du N, qui lui n'est pas figé, donc les 2 composants ne forment pas formellement un sous-arbre
|
|
|
|
|
|
Attention cependant, certaines variations syntaxiques, notamment sur les constructions à verbe support, peuvent faire que les composants d'une EP ne soient pas tous directement connectés. Par exemple avec un quantifieur nominal, comme dans "*Paul a pris une multitude de décisions inutiles*", si "*multitude*" est pris comme tête de "*une multitude de décisions*", alors l'EP "*prendre*" + "*décisions*" ne sera pas directement connectée.
|
|
|
-->
|
|
|
|
|
|
|
|
|
# Critères suffisants pour l'identification manuelle d'une EP
|
|
|
|
|
|
L'idéal serait d'avoir des critères sémantiques pour repérer la non-compositionalité sémantique d'une séquence candidate. Cependant, il est souvent très difficile de les mettre en oeuvre de manière systématique et reproductible. C'est pour cela que les linguistes ont mis au point un certain nombre de critères formels qui permettent d'approximer cette non-compositionalité sémantique. Plus une expression satisfait de critères, plus elle a de chance d'être purement non-compositionnelle.
|
|
|
|
|
|
Les critères retenus pour l'annotation sont donnés ci-dessous. Chaque critère est associé à un identifiant afin de pouvoir y faire référence lors de l'annotation.
|
|
|
|
|
|
**Note importante:** les critères reposent le plus souvent sur des tests d'impossibilité. Ils consistent à effectuer une opération sur la séquence candidate (substitution le plus souvent, insertion). L'impossibilité doit se lire de la manière suivante: soit la séquence produite est impossible (symbole *) soit le changement de sens de la séquence est imprévisible (symbole #).
|
|
|
|
|
|
<!--
|
|
|
* 4.2 **[PREP]** la préposition est figée et le nom n'est pas dans une classe sémantique - _à la suite de_
|
|
|
-->
|
|
|
|
|
|
|
|
|
* 1. **[[CRAN]](CRAN)** la séquence contient un mot cranberry - _à l'**instar** de_, _au **fur** et à mesure_, _**parce** que_
|
|
|
* 2. **[Sémantique](Criteres-semantiques)**
|
|
|
* 2.1. **[ID]** la tête syntaxique de l'expression n'est pas "hyperonyme" de l'expression? - _cordon bleu != cordon_, _nager dans le bonheur != nager_
|
|
|
* 2.2 **[PRED]** on ne peut pas trouver une relation de prédicativité - _*une arme qui est blanche_
|
|
|
* 3. **[[IRREG]](IRREG)** structure morphosyntaxique irrégulière - _à-coup_, _en outre_, _tire-bouchon_
|
|
|
* 4. **[Figement lexical](Criteres-lexicaux)**
|
|
|
* 4.1 **[LEX]** un élément plein ne peut être remplacé par aucun voisin - _eau/#boisson de vie_, _prendre/*saisir un virage_
|
|
|
* 4.3 **[DET]** le déterminant est figé - _faire face_, _garde du corps_
|
|
|
* 4.4 **[ZERO]** possibilité de déterminant zéro (pour les verbes): _avoir peur_ alors que l'on a la variante avec déterminant qui est possible _avoir une peur effroyable_
|
|
|
* 4.5 **[LEXflou]** un élément plein peut être remplacé par un voisin (synonyme, hyperonyme), mais la variation est réduite, et ne couvre pas toute la classe sémantique. NB: ce critère n'est pas suffisant, mais à tester en dernier. On note LEXflou pour les cas satisfaisant ce critère mais aucun des autres.
|
|
|
* 5. **[Figement morphosyntaxique](Criteres-morphosyntaxiques)**
|
|
|
* 5.1 **[MORPHO]** on ne peut pas changer les traits morphosyntaxiques - _perdre la/*les pédale/*pédales_, _de dernière/*s minute/*s_
|
|
|
* 5.2 **[INSERT]** on ne peut pas insérer de modifieur - _(*très) bien que_, _étoile (*très) filante_
|
|
|
* 5.3 **[SYNT]** impossibilité de certaines variations syntaxiques pour certains patrons: (i) Nom Adj -> * Nom de (Det) N-adj (_conseil régional_ -> * _conseil de (la) région_); (ii) Nom1 - Nom2 -> * Nom2 - Nom1 (_hôtel - restaurant_ -> * _restaurant - hôtel_)
|
|
|
* 6. **[Critères spécifiques](Criteres-specifiques)**
|
|
|
* 6.1 **[OP]** test pour les constructions à verbe support (_faire une promenade_)
|
|
|
* 6.2 **[seV]** l'ajout d'un clitique réflexif est obligatoire (_se suicider_) ou change complètement le sens (_s'agir != agir_) ou la valence (_confesser X, se confesser **de** X_) du verbe
|
|
|
* 6.3 **[CL]** l'ajout d'un clitique pas réflexif est obligatoire ou change le sens/valence du verbe : _l'emporter_, _il y avoir_, _s'en aller_
|
|
|
|
|
|
# Pour mémoire... au cas où
|
|
|
|
|
|
Pour le projet PARSEME-FR, nous nous restreignons aux critères décrits ci-dessus. D'autres critères existent: certains sont même suffisants; d'autres ne sont a priori pas suffisants. [Ces autres critères sont décrits dans une page dédiée](Autres-criteres).
|
|
|
|
|
|
|
|
|
### Liens vers les pages individuelles par catégorie (en cas de besoin)
|
|
|
|
|
|
** ATTENTION: CES PAGES NE SONT PAS A JOUR - IL FAUT LES MODIFIER POUR QU'ELLES SUIVENT LES CRITERES DE CETTE PAGE **
|
|
|
|
|
|
* [Critères pour les EP grammaticales](Criteres_mots_grammaticaux)
|
|
|
* [Critères pour les noms composés](Criteres_noms_composes)
|
|
|
* [Critères pour les locutions adverbiales et adjectivales](Criteres_adverbiaux)
|
|
|
* [Critères pour les expressions verbales](Criteres_verbes) |
|
|
\ No newline at end of file |