Wednesday, March 6, 2013

Sunday, January 6, 2013

المعالجة الآلية للغة العربية: OpenSubtitles2011

المعالجة الآلية للغة العربية: OpenSubtitles2011: مجموعة لنصوص متوازية من ترجمات الأفلام مصدرها موقع   http://www.opensubtitles.org وصف النصوص المتاحه: ٥٤ لغة  ١٠٢٥ نص متوازي  ...

Saturday, December 15, 2012

Les domaines du TAL
Traitement de la parole

Dès la fin des années 1970, du fait des limites des systèmes développés, le décodage acoustico-phonétique, considéré comme le problème majeur de la reconnaissance, est à nouveau l'axe prioritaire des recherches en reconnaissance. Trois approches sont envisagées : la première est fondée sur le traitement du signal et la reconnaissance de formes ; la seconde se fonde sur une approche de type intelligence artificielle (développement de systèmes experts en lecture de spectrogrammes) ;

la dernière, toujours très fructueuse aujourd'hui, est axée sur une approche probabiliste du décodage acoustico-phonétique (modélisation markovienne).

Traduction automatique

Prenons comme exemple, l'approche par pivot qui se compose de deux modules seulement : un module d'analyse, qui produit une représentation du texte d'entrée en langage-source dans un langage-pivot postulé indépendant de toute langue, et un module de génération, qui construit à partir de cette même représentation un texte de sortie en langue-cible.

Compréhension automatique des textes

Comprendre un texte, c'est en effet, par-delà le simple décodage du contenu littéral de ce qui est dit phrase après phrase, être capable de relier les phrases entre elles de façon à reconstruire un tout signifiant et cohérent, et être capable d'interpréter le message reçu par rapport à la situation et aux conditions d'énonciation.

L'élaboration de systèmes de compréhension automatique de textes écrits se heurte à deux problèmes liés, d'une part aux relations inter-phrastiques, et d'autre part au contexte, mais cela n'empêche pas, qu'aujourd'hui on est capable de traiter des aspects limités du sens d'un texte quelconque, de manière à pouvoir par exemple l'indexer correctement dans une base de données. Par ailleurs, on peut aller plus loin pour obtenir une compréhension plus profonde, mais cela serait relatif à un domaine très précis.

Génération automatique de textes

Ce n'est qu'au début des années 80 que le problème de génération de textes, dans un acte de communication donné, est abordé. Dans ce cadre, le texte généré par la machine doit satisfaire des exigences : d'une part indiquer à l'utilisateur les informations qu'il désire, et d'autre part offrir une formulation de ces informations dans une langue correcte.

Il s'en suit que le processus de génération comporte deux composants : le premier (système expert de raisonnement) traite la question "quoi dire ?" (détermination du contenu informatif), le second (module de génération linguistique) traite la question "comment le dire ?" (formulation du contenu informatif dans une langue correcte).

Dialogue homme-machine

C'est une interaction avec la machine par le biais du langage ; un système de dialogue homme-machine comporte, outre un module d'analyse et un module de génération , un module de raisonnement spécifique. Raisonner, en l'occurrence, suppose la capacité d'accéder à une base de connaissances quelconque (horaire des trains ou des avions, pages jaunes de l'annuaire, catalogue de vente par correspondance ...) de façon, à être capable de gérer un dialogue, c'est-à-dire une séquence indéterminée d'échanges, ce qui revient à être capable de mémoriser, de changer de sujet, de s'adapter à son interlocuteur ...

Gestion électronique de l’information et des documents existants (GEIDE)

Son but est de fluidifier la circulation de l’information au sein d’une entreprise et d’éviter les redondances abusives.

En effet, les archives qui constituent le patrimoine dormant de l’entreprise, doivent donc réintégrer le circuit vivant de l’information. Il faut pour cela qu’une logique de flux se substitue à une logique de stocks ; c’est le rôle de la GED. Pour fluidifier la circulation de l’information à travers l’organisation de l’entreprise, elle définit la succession des opérations dans la chaîne de traitement des documents, dans un environnement où plusieurs intervenants travaillent sur un même document. Ces circuits traversent sans difficulté les grandes fonctions verticales classiques de l’entreprise (compatibilité, achats commercial, informatique, etc.), ce qui permet de les respecter tout en modifiant les processus de travail.

La GEIDE englobe quatre technologies clés :

le workflow modélise, optimise et traite les flux d’information ;
la GED (Gestion Électronique des Documents) dématérialise les documents pour en faciliter l’exploitation ;
l’archivage stocke de façon organisée l’information de masse sur des disques optiques numériques ;
la recherche de documents accède à des informations multimédias pertinentes.
CONCLUSION 

Généralement, les modèles linguistiques existants se limitent à la description des aspects lexicaux et syntaxiques du langage, mais ce niveau de représentation est insuffisant dans la reconnaissance et la compréhension du langage, même quand il s'agit de phrases très simples. Il est devenu plus intéressant, du point de vue de la représentation des connaissances, de s'orienter vers les modèles sémantiques et pragmatiques qui font actuellement l'objet de recherches très prometteuses. L'approche par attributs sémantiques, pour lever les ambiguïtés non résolues aux niveaux morpho-lexical et syntaxique s'avère trop limitée. Des systèmes s'appuyant sur une formalisation lexicale poussée, telle l'approche de Melcuk, semblent plus prometteurs.

Si certains systèmes informatiques en matière de TAL semblent actuellement satisfaisants pour des langues européennes, la représentation, la saisie, l’édition et le traitement des langues extra-européennes restent largement inexplorés. En outre, la plupart des modèles élaborés pour la formalisation de sous-ensembles du langage naturel, au niveau morpho-syntaxique et sémantique, ne sont pas paramétrables ; souvent dédiés à des langues indo-européennes, ils sont difficilement adaptables aux autres familles de langues (ex. langues sémitiques). Par ailleurs, le contexte économique international actuel conduit à un besoin de plus en plus croissant en outils de traitement multilingue, d’entrées/sorties et de traduction de documentations techniques et scientifiques ...
Analyse pragmatique

L'analyse sémantique de la phrase isolée, traitée hors contexte, ne conduit à représenter que la partie de la signification des mots dans cette phrase, elle n'épuise donc pas ce que l'on peut appeler la signification complète d'un texte, telle que l'humain l'appréhende lors d'un processus de compréhension. C'est la raison pour laquelle une analyse pragmatique est nécessaire, et qui consiste à trouver la signification "réelle" des phrases liées aux conditions situationnelles et contextuelles d’utilisation des mots.
Analyse sémantique

Le niveau sémantique est encore beaucoup plus complexe à décrire et à formaliser que les niveaux de traitements précédents, par conséquent les réalisations qui sont opérationnelles sont peu nombreuses, et elles concernent des applications très limitées où l'analyse sémantique se réduit à un domaine parfaitement circonscrit ; par contre, on est encore loin de savoir construire en grandeur réelle des analyseurs sémantiques généraux qui couvriraient la totalité de la langue et seraient indépendants d'un domaine d'application particulier.

Le traitement sémantique prend comme unité d'analyse la phrase, et conduit à représenter sa partie significative. Ces phrases, dont l'analyseur sémantique doit décrire le sens, se composent d'un certain nombre de mots identifiés par l'analyse morphologique, et regroupés en structures par l'analyse syntaxique. Ces mots et ces structures constituent autant d'indices pour le calcul du sens : on pourrait dire, que le sens résulte de la double donnée du sens des mots et du sens des relations entre mots.