... | ... | @@ -15,24 +15,15 @@ Le but de ce document est de donner une méthodologie simple pour aider les anno |
|
|
1. On identifie par l'intuition une séquence dans le texte susceptible d'être une EP
|
|
|
2. On la catégorise morphosyntaxiquement.
|
|
|
3. On lui applique successivement différents critères (certains étant dépendants de la catégorie morphosyntaxique)
|
|
|
4. Dès lors qu'un des critères (autre que LEXflou) marche, on marque la séquence comme une EP, en indiquant le critère utilisé (cf. [guide du format d'annotation](Format)). **Attention**: on prend pour convention d'appliquer les critères spécifiques (OP, seV, CL) en premier.
|
|
|
4. Dès lors qu'un des critères (autre que LEXflou) marche, on marque la séquence comme une EP, en indiquant le critère utilisé. **Attention**: on prend pour convention d'appliquer les critères spécifiques (OP, seV, CL) en premier.
|
|
|
5. **A TESTER**: si aucun critère strict ne fonctionne, mais que le critère LEXflou fonctionne, alors on marque LEXflou (ce qui permettra de se faire une idée des cas où LEXflou est le seul critère utilisable)
|
|
|
|
|
|
<!-- On notera que les noms propres polylexicaux et autres entités nommées ne sont pas à part. On leur appliquera les mêmes critères d'identification et de catégorisation qu'aux noms et adjectifs composés. -->
|
|
|
L'application de critères à certaines [entités nommées](ep_et_en) est détaillée dans une page spécifique.
|
|
|
|
|
|
On notera que sauf mention contraire, chaque critère est suffisant à classer une séquence comme EP. Le lexique des EP ainsi obtenues devra contenir un recensement de tous les critères vérifiés par une EP, et des sous-lexiques pourront être extraits, en étant plus ou moins restrictifs sur les critères nécessaires, et leur nombre. Cette méthodologie est voulue comme une solution au problème notoire d'identification des EP, une fois sorti des cas d'école.
|
|
|
|
|
|
Nous avons recensé [quelques cas déjà tranchés grâce aux critères ci-dessous](cas_deja_traites), pour accélérer et uniformiser l'annotation.
|
|
|
|
|
|
<!--
|
|
|
Le document est découpé de la manière suivante:
|
|
|
- [portée de l'annotation](portee-annotation-ep)
|
|
|
- [Catégorisation morphosyntaxique](cat-morphosyntaxique)
|
|
|
- [Restriction aux EP formant un arbre](restriction-arbre)
|
|
|
- [Critères suffisants](criteres-suffisants)
|
|
|
-->
|
|
|
|
|
|
# Quels composants annoter?
|
|
|
|
|
|
### Elements lexicalisés
|
... | ... | @@ -117,28 +108,7 @@ On détermine la catégorie morphosyntaxique d'une séquence candidate d'après |
|
|
|
|
|
Par exemple, dans la phrase _**À part** les courgettes, Luc aime tous les légumes_, on peut remplacer la séquence _à part_ par la préposition _sauf_: _**sauf** les courgettes, Luc aime tous les légumes_. On peut donc catégoriser _à part_ comme une préposition.
|
|
|
|
|
|
Il existe cependant des cas où il est difficile de trouver un mot simple pour substituer la séquence. Il existe aussi des cas problématiques avec certaines expressions de structure *Prép GN* dont ont ne sait pas si elles sont adjectifs ou adverbes (cf. section catégorisation de la page spécifique aux [adverbiaux](Criteres_adverbiaux)).
|
|
|
|
|
|
|
|
|
<!--
|
|
|
|
|
|
Dans la très grande majorité des cas, on peut trouver cette catégorie à partir du patron morphosyntaxique de l'expression. Par exemple,
|
|
|
- V (Prep) (Det) (A) N (A) -> verbe
|
|
|
- A N, N A, (A) N (A) prep GN -> nom
|
|
|
- Prep GN -> adverbe ou adjectif
|
|
|
- ADV que -> conjonction
|
|
|
- Prep (Det) N de -> préposition
|
|
|
|
|
|
Cependant, il est parfois plus sûr de se servir de tests linguistiques pour déterminer sa catégorie morphosyntaxique, en particulier pour les séquences de structure "irrégulière" pour une catégorie donnée (_en outre_ (Prep Adv) -> adverbe, _à-coup_ (Prep N) -> nom). On peut trouver des exemples dans les sections sur les mots grammaticaux complexes et les adverbiaux. Un test souvent efficace et rapide est la substitution de la séquence par un mot simple de la catégorie grammaticale dans le contexte de la phrase (mais ça ne marche pas toujours).
|
|
|
|
|
|
-->
|
|
|
|
|
|
<!--
|
|
|
Cette classification des EP par catégories morphosyntaxiques basée sur des critères formels peut encore être affinée. Par exemple, pour les verbes, les linguistes aiment à distinguer les expressions idiomatiques (_Luc fait le poids_) des constructions à verbe support (CVS) (_Luc fait une promenade_), car, dans ces dernières, un des composants (le nom, complément objet du verbe) garde son sens, alors que le verbe a un sens neutre.
|
|
|
<!-- Un des tests qui marche le mieux est la réduction de la CVS en un groupe nominal avec effacement du verbe support (_Luc fait une promenade_ => _La promenade de Luc fut agréable_ vs. _Luc fait le poids_ => _\#Le poids de Luc_) ou la substitution de la construction par un verbe morphologiquement lié (s'il en existe un: _Luc se promène_). Mais il en existe d'autres: cf. la section sur les expressions verbales.
|
|
|
Cependant, nous ne rentrerons pas dans cette discussion qui ne nous semble pas prioritaire pour notre tâche d'identification. Une classification a posteriori plus fine pourra être réalisée une fois le codage des propriétés des expressions réalisé.
|
|
|
|
|
|
-->
|
|
|
Il existe cependant des cas où il est difficile de trouver un mot simple pour substituer la séquence. Il existe aussi des cas problématiques avec certaines expressions de structure *Prép GN* dont ont ne sait pas si elles sont adjectifs ou adverbes (cf. section catégorisation de la page spécifique aux [adverbiaux](Criteres_adverbiaux)).
|
|
|
|
|
|
# Structures non-traitées
|
|
|
|
... | ... | @@ -152,21 +122,6 @@ Cette contrainte implique que l'on ne prend pas des séquences comme _ce N-là_ |
|
|
- _ce N-là_ : les 2 composants _ce_ et _là_ dépendraient syntaxiquement du N, qui lui n'est pas figé, donc les 2 composants ne forment pas formellement un sous-arbre
|
|
|
- _faire du INSTRUMENT_ comme _faire du (piano+violon+...)_: les deux composants _faire_ et _du_ ne sont pas connectés directement (_faire_ est tête de INSTRUMENT et _du_ est dépendant de INSTRUMENT).
|
|
|
|
|
|
<!--
|
|
|
|
|
|
Certains mots ont une contrainte de coocurrence avec d'autres mots (_ce N-là_, _ne V pas_, _personne ne V_, _ne V que_, _faire du + N-activité_: _piano_, _vélo_, etc._), ou d'autres syntagmes (_celui + PP_, _celui + relative_), mais sans former pour autant un sous-arbre de dépendances 100% lexicalisé.
|
|
|
|
|
|
On décide dans un premier temps de ne pas annoter ces cas.
|
|
|
On se restreint donc aux cas où les composants forment un (sous-)arbre de dépendances, dont on peut identifier la tête syntaxique.
|
|
|
|
|
|
Par exemple:
|
|
|
_mettre en garde_ : les 3 composants sont connectés, avec _mettre_ comme racine
|
|
|
_ce N-là_ : les 2 composants _ce_ et _là_ dépendraient syntaxiquement du N, qui lui n'est pas figé, donc les 2 composants ne forment pas formellement un sous-arbre
|
|
|
|
|
|
Attention cependant, certaines variations syntaxiques, notamment sur les constructions à verbe support, peuvent faire que les composants d'une EP ne soient pas tous directement connectés. Par exemple avec un quantifieur nominal, comme dans "*Paul a pris une multitude de décisions inutiles*", si "*multitude*" est pris comme tête de "*une multitude de décisions*", alors l'EP "*prendre*" + "*décisions*" ne sera pas directement connectée.
|
|
|
-->
|
|
|
|
|
|
|
|
|
# Critères suffisants pour l'identification manuelle d'une EP
|
|
|
|
|
|
L'idéal serait d'avoir des critères sémantiques pour repérer la non-compositionalité sémantique d'une séquence candidate. Cependant, il est souvent très difficile de les mettre en oeuvre de manière systématique et reproductible. C'est pour cela que les linguistes ont mis au point un certain nombre de critères formels qui permettent d'approximer cette non-compositionalité sémantique. Plus une expression satisfait de critères, plus elle a de chance d'être purement non-compositionnelle.
|
... | ... | @@ -175,11 +130,6 @@ Les critères retenus pour l'annotation sont donnés ci-dessous. Chaque critèr |
|
|
|
|
|
**Note importante:** les critères reposent le plus souvent sur des tests d'impossibilité. Ils consistent à effectuer une opération sur la séquence candidate (substitution le plus souvent, insertion). L'impossibilité doit se lire de la manière suivante: soit la séquence produite est impossible (symbole *) soit le changement de sens de la séquence est imprévisible (symbole #).
|
|
|
|
|
|
<!--
|
|
|
* 4.2 **[PREP]** la préposition est figée et le nom n'est pas dans une classe sémantique - _à la suite de_
|
|
|
-->
|
|
|
|
|
|
|
|
|
* 1. **[[CRAN]](CRAN)** la séquence contient un mot cranberry - _à l'**instar** de_, _au **fur** et à mesure_, _**parce** que_
|
|
|
* 2. **[Sémantique](Criteres-semantiques)**
|
|
|
* 2.1. **[ID]** la tête syntaxique de l'expression n'est pas "hyperonyme" de l'expression? - _cordon bleu != cordon_, _nager dans le bonheur != nager_
|
... | ... | @@ -197,18 +147,4 @@ Les critères retenus pour l'annotation sont donnés ci-dessous. Chaque critèr |
|
|
* 6. **[Critères spécifiques](Criteres-specifiques)**
|
|
|
* 6.1 **[OP]** test pour les constructions à verbe support (_faire une promenade_)
|
|
|
* 6.2 **[seV]** l'ajout d'un clitique réflexif est obligatoire (_se suicider_) ou change complètement le sens (_s'agir != agir_) ou la valence (_confesser X, se confesser **de** X_) du verbe
|
|
|
* 6.3 **[CL]** l'ajout d'un clitique pas réflexif est obligatoire ou change le sens/valence du verbe : _l'emporter_, _il y avoir_, _s'en aller_
|
|
|
|
|
|
# Pour mémoire... au cas où
|
|
|
|
|
|
Pour le projet PARSEME-FR, nous nous restreignons aux critères décrits ci-dessus. D'autres critères existent: certains sont même suffisants; d'autres ne sont a priori pas suffisants. [Ces autres critères sont décrits dans une page dédiée](Autres-criteres).
|
|
|
|
|
|
|
|
|
### Liens vers les pages individuelles par catégorie (en cas de besoin)
|
|
|
|
|
|
** ATTENTION: CES PAGES NE SONT PAS A JOUR - IL FAUT LES MODIFIER POUR QU'ELLES SUIVENT LES CRITERES DE CETTE PAGE **
|
|
|
|
|
|
* [Critères pour les EP grammaticales](Criteres_mots_grammaticaux)
|
|
|
* [Critères pour les noms composés](Criteres_noms_composes)
|
|
|
* [Critères pour les locutions adverbiales et adjectivales](Criteres_adverbiaux)
|
|
|
* [Critères pour les expressions verbales](Criteres_verbes) |
|
|
\ No newline at end of file |
|
|
* 6.3 **[CL]** l'ajout d'un clitique pas réflexif est obligatoire ou change le sens/valence du verbe : _l'emporter_, _il y avoir_, _s'en aller_ |
|
|
\ No newline at end of file |