Saturday, December 15, 2012

Les domaines du TAL
Traitement de la parole

Dès la fin des années 1970, du fait des limites des systèmes développés, le décodage acoustico-phonétique, considéré comme le problème majeur de la reconnaissance, est à nouveau l'axe prioritaire des recherches en reconnaissance. Trois approches sont envisagées : la première est fondée sur le traitement du signal et la reconnaissance de formes ; la seconde se fonde sur une approche de type intelligence artificielle (développement de systèmes experts en lecture de spectrogrammes) ;

la dernière, toujours très fructueuse aujourd'hui, est axée sur une approche probabiliste du décodage acoustico-phonétique (modélisation markovienne).

Traduction automatique

Prenons comme exemple, l'approche par pivot qui se compose de deux modules seulement : un module d'analyse, qui produit une représentation du texte d'entrée en langage-source dans un langage-pivot postulé indépendant de toute langue, et un module de génération, qui construit à partir de cette même représentation un texte de sortie en langue-cible.

Compréhension automatique des textes

Comprendre un texte, c'est en effet, par-delà le simple décodage du contenu littéral de ce qui est dit phrase après phrase, être capable de relier les phrases entre elles de façon à reconstruire un tout signifiant et cohérent, et être capable d'interpréter le message reçu par rapport à la situation et aux conditions d'énonciation.

L'élaboration de systèmes de compréhension automatique de textes écrits se heurte à deux problèmes liés, d'une part aux relations inter-phrastiques, et d'autre part au contexte, mais cela n'empêche pas, qu'aujourd'hui on est capable de traiter des aspects limités du sens d'un texte quelconque, de manière à pouvoir par exemple l'indexer correctement dans une base de données. Par ailleurs, on peut aller plus loin pour obtenir une compréhension plus profonde, mais cela serait relatif à un domaine très précis.

Génération automatique de textes

Ce n'est qu'au début des années 80 que le problème de génération de textes, dans un acte de communication donné, est abordé. Dans ce cadre, le texte généré par la machine doit satisfaire des exigences : d'une part indiquer à l'utilisateur les informations qu'il désire, et d'autre part offrir une formulation de ces informations dans une langue correcte.

Il s'en suit que le processus de génération comporte deux composants : le premier (système expert de raisonnement) traite la question "quoi dire ?" (détermination du contenu informatif), le second (module de génération linguistique) traite la question "comment le dire ?" (formulation du contenu informatif dans une langue correcte).

Dialogue homme-machine

C'est une interaction avec la machine par le biais du langage ; un système de dialogue homme-machine comporte, outre un module d'analyse et un module de génération , un module de raisonnement spécifique. Raisonner, en l'occurrence, suppose la capacité d'accéder à une base de connaissances quelconque (horaire des trains ou des avions, pages jaunes de l'annuaire, catalogue de vente par correspondance ...) de façon, à être capable de gérer un dialogue, c'est-à-dire une séquence indéterminée d'échanges, ce qui revient à être capable de mémoriser, de changer de sujet, de s'adapter à son interlocuteur ...

Gestion électronique de l’information et des documents existants (GEIDE)

Son but est de fluidifier la circulation de l’information au sein d’une entreprise et d’éviter les redondances abusives.

En effet, les archives qui constituent le patrimoine dormant de l’entreprise, doivent donc réintégrer le circuit vivant de l’information. Il faut pour cela qu’une logique de flux se substitue à une logique de stocks ; c’est le rôle de la GED. Pour fluidifier la circulation de l’information à travers l’organisation de l’entreprise, elle définit la succession des opérations dans la chaîne de traitement des documents, dans un environnement où plusieurs intervenants travaillent sur un même document. Ces circuits traversent sans difficulté les grandes fonctions verticales classiques de l’entreprise (compatibilité, achats commercial, informatique, etc.), ce qui permet de les respecter tout en modifiant les processus de travail.

La GEIDE englobe quatre technologies clés :

le workflow modélise, optimise et traite les flux d’information ;
la GED (Gestion Électronique des Documents) dématérialise les documents pour en faciliter l’exploitation ;
l’archivage stocke de façon organisée l’information de masse sur des disques optiques numériques ;
la recherche de documents accède à des informations multimédias pertinentes.
CONCLUSION 

Généralement, les modèles linguistiques existants se limitent à la description des aspects lexicaux et syntaxiques du langage, mais ce niveau de représentation est insuffisant dans la reconnaissance et la compréhension du langage, même quand il s'agit de phrases très simples. Il est devenu plus intéressant, du point de vue de la représentation des connaissances, de s'orienter vers les modèles sémantiques et pragmatiques qui font actuellement l'objet de recherches très prometteuses. L'approche par attributs sémantiques, pour lever les ambiguïtés non résolues aux niveaux morpho-lexical et syntaxique s'avère trop limitée. Des systèmes s'appuyant sur une formalisation lexicale poussée, telle l'approche de Melcuk, semblent plus prometteurs.

Si certains systèmes informatiques en matière de TAL semblent actuellement satisfaisants pour des langues européennes, la représentation, la saisie, l’édition et le traitement des langues extra-européennes restent largement inexplorés. En outre, la plupart des modèles élaborés pour la formalisation de sous-ensembles du langage naturel, au niveau morpho-syntaxique et sémantique, ne sont pas paramétrables ; souvent dédiés à des langues indo-européennes, ils sont difficilement adaptables aux autres familles de langues (ex. langues sémitiques). Par ailleurs, le contexte économique international actuel conduit à un besoin de plus en plus croissant en outils de traitement multilingue, d’entrées/sorties et de traduction de documentations techniques et scientifiques ...

No comments:

Post a Comment