Centre de Recherche Lucien Tesnière

 TRADUCTION AUTOMATIQUE DES LANGUES
début en 1998



La traduction automatique est l'un des plus vieux domaines du traitement automatique des langues.Dès les années 50, c'était le champ d'application des outils informatiques existants à l'époque. On connaît le rapport ALPAC et ses suites. Les succès et les échecs de la TA ont rythmé le développement du TAL. Quelles raisons avons-nous de reprendre aujourd'hui cette voie? --D'abord les techniques de stockage des informations ont progressé, de telle manière que nous disposons aujourd'hui de quantité de dictionnaires, de ressources textuelles. --La vitesse des machines a permis un traitement de données considérables. --L'existence de systèmes individuels à mémoires considérable a changé la donne --Les technologies de la TA se sont décantées, stabilisées, de telle maniàre que des choix ont été faits entre différents outils. Certain ont été abandonnés d'autres au contraire sont pris très au sérieux. --Des applications sont entrées dans la vie quotidienne. Les outils de traduction fleurissent dans les bureaux. --La traduction n'est plus l'affaire des gros systèmes --La traduction automatique apparaît sur internet --La traduction automatique apparaît dans la téléphonie --Le nombre de langues à prendre en compte est de plus important et de plus divers. Autrefois, il s'agit de traduire de l'anglais vers le russe. D'autres langues s'étaient jointes : le fran‡ais, l'allemand, le japonais. Aujourd'hui toutes sortes de langues sont candidates à la traduction automatique. Le multilinguisme en TAL est une réalité. Des sytèmes linguistiques très éloignés du domaine indo-européens sont concernés : le chinois, le thaïlandais, l'arabe, les langues de l'europe de l'Est. On peut même penser que des langues dont la population est importante sont automatiquement concernées : des langues africaines, des langues asiatiques, d'Inde. La difficulté est que ces langues sont des langues agglutinantes et non flexionnelles. Il importe de développer des analyses linguistiques pour le TAL pour des langues rares. La communauté européenne en réunissant un grand nombre de pays dont les systàmes linguistiques appartiennent à toutes sortes de familles linguistiques demande des systèmes de traduction de qualité ou des systèmes d'aide à la traduction : le hongrois, le finnois etc.. sont en Europe des langues non indo-européennes. Ce vieux domaine du TAL est en train de retrouver une nouvelle jeunesse, d'autant plus que les technologies qui y ont été mises au point peuvent être reprises ailleurs. La TA reste un banc d'essai de nombreux concepts et applications.

En quoi une perspective énonciative, cognitive peut-elle apporter des concepts, des outils aux développements actuels de la TA? Si l'on regarde de près les progrès rélisés, on peut penser que les traitements les plus lourds pour les langues susceptibles de donner lieu … des applications industrielles ont été faits. L'avancement de projets comme SYSTRAN montre que des règles (500 000) traitent la désambiguïsation des mots polys‚miques dont le contexte proche permet la clarification du sens. Il reste à traiter les mots "vagues", ceux dont le sens varie selon des paramètres labiles. Dans un tel domaine les outils et les concepts manquent... Une approche énonciative et cognitive peut apporter des solutions, bien que les connaissances propres au domaine peuvent être cruciale. Nos recherches sur le traitement des mots vagues peut être intéressante. Il devient alors possible d'envisager des systèmes de transfert prenant en compte ces faits linguistiques labiles. Il existe d'autres approches linguistiques qui proposent elles aussi des solutions, en particulier le modèle distributionnel. Le moment est venu où des approches linguistiques qui pouvaient paraître marginales dans le traitement automatique des langues, prennent de l'intérêt. L'avantage des modèles énonciatifs est d'avoir travaillé depuis de nombreuses années sur ce type de faits linguistiques et donc de disposer d'une avance considérable dans la description et la formalisation des faits de langue.

Les projets réalisés portent sur des modélisation de l'arabe, en particulier des systèmes de tranfert d'une langue à l'autre dans des domaines restreints. Des investigations dans le traitement de faits linguistiques labiles sont en cours de test.
 

Retour à la page accueil