... | ... | @@ -97,6 +97,10 @@ Un déterminant est inclus dès lors que le critère de figement du déterminant |
|
|
|
|
|
Plusieurs tokens peuvent former un seul mot comme les abréviations, des mots avec des séparateurs "accidentels"(ex. _p._ pour "page", *aujourd'hui*). Dans ce cas on parle de Multiword Tokens. Ceux-ci ne sont pas annotés comme EP.-->
|
|
|
|
|
|
|
|
|
<!-- FINALEMENT la CATEGORISATION SYNT n'est faite qu' a posteriori,
|
|
|
et uniquement pour les EPs syntaxiquement irrégulières -->
|
|
|
<!-- debut catégorisation morphosyntaxique
|
|
|
# Catégorisation morphosyntaxique
|
|
|
|
|
|
Une EP correspond en général à une unité lexicale à laquelle on peut associer une catégorie morphosyntaxique: la séquence se comporte syntaxiquement comme telle.
|
... | ... | @@ -115,6 +119,9 @@ Par exemple, dans la phrase _**À part** les courgettes, Luc aime tous les légu |
|
|
|
|
|
Il existe cependant des cas où il est difficile de trouver un mot simple pour substituer la séquence. Il existe aussi des cas problématiques avec certaines expressions de structure *Prép GN* dont ont ne sait pas si elles sont adjectifs ou adverbes (cf. section catégorisation de la page spécifique aux [adverbiaux](Criteres_adverbiaux)).
|
|
|
|
|
|
(fin catégorisation morphosyntaxique)
|
|
|
-->
|
|
|
|
|
|
# Structures non-traitées
|
|
|
|
|
|
On n'annote que les cas où l'EP forme un sous-arbre syntaxique (donc connecté). Cette contrainte implique que l'on ne prend pas des séquences comme _ce N-là_ où les 2 composants _ce_ et _là_ dépendraient syntaxiquement du N, qui lui n'est pas figé, donc les 2 composants ne forment pas formellement un sous-arbre.
|
... | ... | |