Saturday, December 15, 2012

Analyse morphologique

Consiste à segmenter un texte en unités élémentaires auxquelles sont attachées des connaissances dans le système : une fois cette segmentation effectuée, ce n'est plus le texte qui est manipulé, mais une liste ordonnée de telles unités.

Pour le traitement d'un texte écrit : on part d’une chaîne de caractères typographiques, et on essaie de la découper de façon à ce que chaque segment corresponde à une unité répertoriée dans le système.

Ex. : soit la chaîne de caractères Jean a mangé des pommes.

La segmentation se fera de la manière suivante : U1 = Jean, U2 = a mangé, U3 = des, U4 = pommes, U5 = . (point)

Maintenant, on pourra associer toutes sortes d'informations aux Ui (i = 1, 2, 3, ...), comme par exemple :

U1 = Jean :

Informations morpho-syntaxiques : nom propre, masculin, singulier.
Informations sémantiques : animé humain, prénom ...

U2 = a mangé :

Forme lemmatisée : manger
Informations morpho-syntaxiques : verbe, passé composé, indicatif, 3ème personne, singulier, constructions : transitif, ...

Idem pour U3, U4, ...

Remarque : il y a des phénomènes (concernant le choix et le statut des unités) qui sont répertoriés de longue date par les linguistes : qui conduisent à s’interroger sur la notion de mot : élision, amalgames, flexions, dérivations, composition, ...

No comments:

Post a Comment