Centre de Linguistique Appliquée de Besançon

Centre de Recherche en Linguistique Etrangère

Centre Tesnière

 

DIALECTOLOGIE THEORIQUE ET COMPUTATIONNELLE

 

Projet dialectologique de Henri Madec

henri.madec@univ-fcomte.fr

 

Curiculum vitae en linguistique et dialectologie :

- études de linguistique comparée de langues indo-européennes Bordeaux 3

- études de linguistique comparée des langues romanes Université de Bordeaux 3

- études de celtique Université de Bretagne occidentale ( auditeur libre)

- étude de kébou Université de paris VII

- études de keshua INALCO

Pourquoi traiter de la dialectologie et des "petites langues" en TAL? On peut considérer cela comme un passe-temps, une occupation qui fait oublier l'informatique et la formalisation. Pourquoi pas? Mais c'est aussi vouloir acquérir une technologie dans un domaine particulier celui des langues très peu étudiées du point de vue de l'automatisation. Ce sont des langues pauvres, sans technologie informatique, sans chercheurs. Sur le plan de la traduction automatique, des recherches de données sur Internet, elles risquent de ne pas poser de problème stratégique avant longtemps. Sur le plan de la téléphonie, il en va tout autrement. Il faut penser que les langues agglutinantes sont de très loin les langues les plus nombreuses, même si elles ne sont pas les plus parlées. Elles présentent sur les plans lexicaux et syntaxiques des particularités qui méritent attention. Elles sont loin d'être les plus simples. Sur le plan de l'intérêt linguistique, elles sont importantes. Une langue comme le keshua n'a aucun rapport avec des langues comme l'anglais et le français. Il faut mettre en place des technologies tout à fait diff´rentes pour effectuer des traitements automatiques. Encore faut-il renouveler les descriptions de ces langues...

 

Pour renouveler un domaine, il importe de réorganiser les fondements théoriques de la discipline. Nous entendons donner à cette partie de la linguistique une nouvelle dimension et en même temps une certaine pertinence, étant donné la disparition de très nombreuses petites langues, la réduction du nombre et de l’étendue de certaines langues de grande culture, les transformations des zones linguistiques, sous l’influence de la mondialisation. L’apparition de nouveaux outils d’enregistrement de données, l’existence de moyens d’échange et de communication puissants comme internet et de moyens gigantesque de traitement des données grâce à l'informatique ouvrent de nouvelles perspectives à la linguistique de terrain permettant d’analyser finement les évolutions linguistiques, même à une échelle mondiale, et de proposer des planifications adéquates.

On peut penser spontanément que c'est à la sociolinguistique de répondre à cette demande. La dernière forme qu'a prise la dialectologie allait en ce sens. On étudiait dans le mode de parler de tel ou tel quartier de telle ou telle ville, de telle ou telle population, comment était prononcé un phonème, ou un mot donnés. On ne reviendra pas sur les travaux de la sociolinguistique américaine ce n'est pas notre intention. On ne reviendra pas sur la géographie linguistique qui étudie les langues dans leur contexte économique, leur rapport avec la démographie, le revenu par tête d'habitant, la répartition à travers les pays de telle ou telle langue... le lien qu'il peut y avoir entre la langue et la géographie physique, les montagnes ou les fleuves. Ces aspects ont déjà été étudiés par ailleurs. Pour nous, la dialectologie concerne de recueil de données de terrain pour toute langue, quelle qu'elle soit, petite ou grande : le traitement de la matière linguistique de base. Avec l'idée que dans certains cas, nous aurons des relevés complexes à opérer, étant donné la langue sur laquelle on travaille ou la population de sujets concernés. Il y a bien là des techniques à définir, une expertise à dégager. Nous ne connotons d'aucune façon le concept de dialecte. Pour nous, il s'agit du fait linguistique de terrain recueilli ici et là à un moment donné, au delà de toute idée de norme ou de perspective sociologique ou d'utilisation particulière.

Des dunes et des langues

Les modèles linguistiques qui ont servi à fonder la dialectologie sont les lois phonétiques et la théorie des ondes de Saussure, modèles empruntés à la physique. On ne reviendra pas sur ces approches, elles sont connues. Nous développerons une autre image, celle de la dune. Une langue comme une dune est un équilibre de milliards d'éléments, de grains de sable /de mots, tels que, posés les uns sur les autres selon de mystérieuses lois, ils constituent une masse bien équilibrée qui évolue, se déplace au gré des souffles du vent. Suffit-il d'un déséquilibre de quelque partie, de quelque élément, pour que la dune se trouve attaquée. Le vent qui l'alimentait, la constituait, désormais l'attaque. Et on voit des pans s'écouler, ici et là. Des points de faiblesses apparaissent, au hasard semble-t-il, le bas déséquilibrant le sommet, le sommet glissant vers le bas! Et, à l'issue de ce cycle, la dune sera aplanie. Telle est l'image qui fonde notre approche de la dialectologie, comme la physique naïve de l'onde et des forces de clocher et d'intercourse fondaient celle de Saussure dans le Cours de Linguistique Générale.

La connaissance d'une langue passe donc par la connaissance de ces millions de mots et d'expressions qui la constituent, par l'étude des milliers de règles qui constituent sa grammaire, des opérations qui fondent sémantiquement la construction de la référence. Pour évaluer la solidité de l'ensemble et diagnostiquer les points faibles des systèmes, pour savoir ce qui peut être fait, ce qu'il est trop tard de faire, il importe de passer par une étude de masse de faits linguistiques de terrain. Il n'y a pas de langue qui soit plus faible qu'une autre, ait une vocabulaire plus pauvre ou plus restreint qu'une autre. Il n'y a que des langues mieux connues mieux décrites que d'autres. Connaître la nature de la DUNE est plus que tout nécessaire afin de pouvoir se prononcer en connaissance de cause.

Recueillir les faits linguistiques de terrain

Il s'agit donc de constitution de corpus de données de terrain. Ce recueil empirique ne donne pas lieu habituellement à une science. C'est une activité fastidieuse, une tâche ingrate, qui ne mérite pas considération. En fait, cette opération est antérieure à tout travail linguistique. Et le fait d'amasser des mots et des expressions ne suffit pas pour qu'on puisse parler de corpus. Il importe donc de constituer ces investigations empiriques en science. Il est donc important et primordial de recueillir. Mais le recueil d'informations linguistiques a besoin d'être théorisé quelles que soient les utilisations que l'on doive en faire. Il prendra la forme d'informations orales ou écrites. Ce peut être des textes constitués, ou des productions non structurées syntaxiquement ou thématiquement, des bribes. Il ne s'agit pas d'oralité ou de scripturalité ,au sens que leur donne parfois la linguistique traditionnelle, mais simplement de faits linguistiques. Ces corpus ne sont pas innocents, ils sont "faits". Ils résultent de choix, d'orientations. On recueille des mots, des phrases, des gestes, des attitudes etc... Le recueil dépend de l'outil d'enregistrement utilisé : notes prises à la main, enregistrements vocaux, vidéo. Il est important de choisir les collecteurs, les conditions matérielles de la collecte. On peut prendre les principes posés par les dialectologues des siècles précédents. On peut aussi chercher à en définir d'autres, plus techniques, plus théoriques.

Le choix des dimensions de la fenêtre dialectologique

Quand on fait du recueil de données de terrain, il est important de se fixer les dimensions de l’espace géographique où opérer. Cette zone est souvent présentée comme déterminée par l'intuition du dialectologue. Elle vient naturellement à l'esprit de l'expert. Parfois procéder ainsi se justifie et donne de bons résultats. Parfois, cette attitude conduit à des erreurs.

On veut étudier un fait linguistique appartenant à la langue française. Pourquoi estimer que le métro est le lieu privilégié où prélever des échantillons du français moderne ? On choisit ainsi spontanément le territoire de la France métropolitaine. Mais il faudrait encore justifier théoriquement ces choix.

On admet qu'on peut faire de l'observation de nature dialectologique sur une zone où différentes langues sont parlées, à la recherche d'une constante phonétique, lexicale ou sémantique, trans-linguistique. L'identité de la langue ne garantit pas l'identité sémantique ou syntaxique. Le lexique français aujourd’hui n’est-il pas plus proche de celui des autres langues européennes que du français africain ?

On doit définir des critères, poser une expertise de recueil d'informations linguistiques. Cette expertise peut être issue de l'expérience de l'ethnolinguiste ou des méthodes du sociologue versé dans le traitement de données de masse. On peut prendre des informations à la volée, le problème est de pouvoir évaluer la qualité de ce qui est recueilli.

La carte du dialectologue n'est pas la même que la carte du géographe ou du politique. Les phénomènes de mondialisation sont à prendre en compte. On ne peut pas raisonner en termes de bon sens, de mode linguistique ou de traitement "habituel", ou d'innovation "nécessaire". Il faut toujours choisir des critères , et pouvoir les évaluer. L'espace dialectologique doit être théorique et expérimental.

Les techniques de recueil

Pour ce qui est de la procédure de recueil, on peut adopter différents principes. On recueille "tout ce qu'on trouve", ou des faits spécifiques définis au préalable, ou des faits produits de façon contrôlée, ou encore des faits spontanés uniquement, des paroles volées... On peut choisir des registres différents : vie courante, milieux déterminés, emplois techniques. La terminologie ne concerne pas seulement un domaine concernant les sciences et les techniques évoluées. Toute société même primitive développe par rapport à ses techniques des discours. Des terminologies naissent, se développent et meurent, sans arrêt. On peut se trouver aussi dans le cas de langues parlées occasionnellement par peu de locuteurs. Comment extraire un corpus dans de telles conditions ? Comment évaluer sa fiabilité ?

Il n'est pas possible parfois de tout recueillir. On doit opérer par sondages. Encore faut-il justifier les lieux, les quantités, les moments où l'on prélève. Il faut obligatoirement justifier les formes lexicales, syntaxiques, sémantiques que l’on a choisies d’observer.

Il peut aussi y avoir une dimension cognitive dans la technique de recueil de l'information. Comment explorer le champ sémantique du locuteur, afin d’extraire son expertise linguistique? Il faut utiliser des dictionnaires constitués sur des bases cognitives. Il faudra aussi définir les stratégies de recueil selon la personnalité des interlocuteurs, les thèmes recherchés. Le pouvoir d'écoute du dialectologue est un concept à constituer. On peut choisir un expert de la question traitée (en terminologie, par exemple) ou au contraire compter sur la " bonne volonté et l'honnêteté " de l'investigateur.

Relevés orthographiques dialectologiques en Keshua et en breton

Nos recherches de terrain s'orientent vers deux langues, le keshua et le parler breton de la région d'Audierne. Le problème que nous traitons est celui des choix, des règles qui président à la transcription orthographique des dialectes. On a trois cas de figure à traiter.

S’il s’agit de textes écrits par des non lettrés, on peut se demander quels principes ont été pris par ceux qui ont fait ce travail de transcription. L'intérêt est de mesurer l’adaptation de la langue écrite à des formes orales ou à la tentative de se rapprocher des principes orthographiques d’une langue dominante.

S’il s'agit de lettrés écrivant des textes "littéraires", il y a dans ce cas volonté de créer une orthographe stable. Que se passe-t-il quand l'écrivain dialectal essaie de trouver une représentation graphique qui pourra être lue par toute la communauté ?

S’il s'agit d'écrivains qui veulent se mouler dans une orthographe standardisée, il s'agira alors d'une analyse de fautes. De quoi dans un tel cas, la faute est-elle signe? Que trahit-elle ? Il peut aussi se produire que l'écrivain veuille laisser une trace de la présence de son dialecte dans l'écriture standardisée. Ou peut-être s’agit-il d’un simple " oubli " ?

Ce que nous voulons étudier, ce sont les critères de stabilisation de la langue par l'écriture, la normalisation orthographique.. Cette stabilisation, pour nous est importante, c'est la clé :

- du déchiffrage des textes manuscrits

- du traitement automatique de reconnaissance des mots

- de la définition d'un standard d'écriture

- de l'interprétation des manifestations dialectales de la culture personnelle des auteurs et des signes qu'ils

entendent donner aux lecteurs.

Les dialectes sur lesquels nous avons choisi de travailler montrent combien le problème est complexe, et aussi que les solutions apportées se ressemblent. La constitution de corpus de formes orthographiques, ainsi que les textes où elles ont été produites, nous permettent de dégager les conditions générales d'élaboration d'orthographes spontanées et le passage à des orthographes plus élaborées.

Le traitement automatique des données

Dans notre perspective, le traitement que l'on peut faire subir aux données, va intervenir dans la détermination de la technique de relevé. Si on dépouille à la main, la quantité à retenir n'est pas la même que si on dépouille mécaniquement. A quoi bon recueillir si l'on ne dispose pas des moyens de retrouver, de classer, de trier les données obtenues ?

Il faut donc structurer les données recueillies... La dialectologie se retrouve tributaire des moyens mis à la disposition du chercheur. Aujourd'hui, l'informatique est l'outil à privilégier. Les normes définies par la T.E.I. peuvent être prises en compte. Mais il faudra en définir de spécifiques pour la dialectologie. Il faut tenir compte du collecteur de données, des auteurs, des locuteurs, des dates, de la forme de recueil, spontanée ou provoquée etc., du type de discours, des lieux, des pauses, des reprises, d'une organisation en paragraphes, en alinéas, des apartés, des thèmes annoncés donc de définir des constantes sémantiques. Ces traitements peuvent être faits à la main, en semi-automatique ou en automatique.

Un corpus dialectologique ne peut être une masse brute qu'on ne saurait comment exploiter, sinon en pensant que dans l'avenir des milliers de lecteurs auront tout le temps pour faire des recoupements, alors qu'aujourd'hui on dispose de peu de personnel et de peu de moyens... Mais un tel discours n'a pas de sens.

Le traitement informatique des données textuelles est l'outil requis pour une telle tâche. Il permettra des exploitations ultérieures.


Nous avons développé ce projet pour des raisons théoriques, mais poussé aussi par les circonstances. Décrire une langue peu ou mal stabilisée historiquement, c’est chercher à établir ses formes linguistiques pour ce qui est de l’orthographe, du lexique, de la syntaxe, de la sémantique, à partir des variations géographiques et historiques. Mais ce projet se justifie également par différents travaux de dictionnairique effectués par les étudiants du Centre Tesnière sur les patois de Franche Comté ou sur des langues asiatiques comme le cambodgien. Il intéresse des chercheurs sur des dialectes d'Oc, des langues celtiques, des langues aborigènes d'Australie, des langues indiennes comme le quechua. Le problème qui se pose est que sur 4000 langues recensées dans le monde dans les années 1900, il en disparaîtra la moitié autour de l'an 2000. Il importe donc de pouvoir disposer de plates-formes de description et de traitements automatiques appropriés à ces données de terrain. Nous entendons par dialectologie ici la diversité diachronique, la diversité spatiale et géographique des faits linguistiques, sans connoter "dialecte" de quelque façon que ce soit. La description d'une langue, sa stabilisation exige un travail énorme pour le linguiste. Il est nécessaire de mettre au point une plate-forme de traitement des données de terrain, évitant qu'un chercheur épuise des dizaines d'années de son existence à traiter les faits qu'il a saisis sur le terrain ou dans des textes incertains. Il faut aussi avoir des techniques, des méthodes, des concepts qui permettront de se donner les moyens théoriques et techniques pour stabiliser ces langues. Il faudra encore des outils d'évaluation de l'évolution du système linguistique. A-t-on un système fiable pouvant être perfectionné ? Sommes-nous en face d'un système en crise qui a peu de chances de résoudre ses contradictions morphologiques, syntaxiques. Si l'effort à fournir est incommensurable, faudra-t-il choisir de laisser disparaître le système linguistique en perdition ? Cette question n'est pas du ressort du dialectologue, il peut aider ceux qui se la posent à y répondre.
La plate-forme constituée est composée des modules suivants:

- recueil de données sous WORD ou quelque éditeur de texte
                           - données orales : constitution des corpus et mise en forme en vue de traitements appropriés
                           - données textuelles scannées : livres, articles, textes informels
                           - extraction dirigée de données orales, écrites
                           - traitement des données recueillies,
                           - recherche contextuelle à partir de signes, de mots, de chaînes, de champs sémantiques
                           - identification de formes à partir de squelettes phonétiques, orthographiques
                           - constitution d'une base de données
                           - vedettes, formes attestées, selon les dates, les auteurs, les textes, homonymes,
                                   synonymes,polysèmes, informations ethnologiques, terminologiques, sociologiques
                           - exploitation des données recueillies
                          - constitution automatique de dictionnaires de noms, de verbes, de synonymes,...de
                                   dictionnaires d e concepts, de champs de connaissances
                           -traitement lexicologique, exploitations statistiques lexicométriques, concordancier
                           - constitution de bases de données grammaticales en vue de constituer des grammaires
                          - simulation du développement géographique, historique de la langue étudiée. On obtient de cette
                                    façon des faits qui peuvent être présentés à l'expertise du sociolinguiste ou du linguiste
                                    politique.

(Observatoire Linguistique de Besançon). Il y a là toute une technologie linguistique et informatique à mettre en place. Le graphisme informatique, les outils statistiques permettent des représentations suggestives de faits de terrain. Le traitement informatique des répartitions dans l'espace et dans le temps des faits de langue, le calcul des corrélations sur des masses importantes de données, la simulation de l'évolution des situations de terrain, la paramétrisation des facteurs d'évolution, l'évaluation chiffrée et graphique des conséquences, tout ceci constitue une réalisation technique envisageable.

Quelle planification pour ces domaines ? Veut-on des programmes d'enseignement dans ces langues ? Veut-on favoriser l'émergence d'une littérature ? Il n'est pas possible de n'avoir que des sentiments bons ou mauvais, face au " problème linguistique " . Il y a tout un savoir à extraire des tentatives qui ont été faites ici et là, à tirer des leçons des succès et des échecs. Mais il faut pouvoir mesurer objectivement les données de terrain, leur évolution, ce que l'on peut attendre des programmes de planification auxquels elles peuvent être soumises. (Voir présentation du projet dialectologie du Centre Tesnière) Cette recherche peut intéresser des chercheurs travaillant sur de petites langues ou des linguistes voulant évaluer les chances de survie de telle langue de grande culture au contact de telle autre dans l'une ou l'autre de ses marges géographiques. (Japonais/chinois en Asie du Sud Est) .

Le projet informatique DICAUTOPAT est déjà largement implémenté en Pascal et utilise les traitements de textes WORD par exemple pour le recueil de données. Les essais effectués donnent des résultats satisfaisants.

Aujourd'hui, on a de bonnes raisons de penser qu'il faut reprendre en compte cet aspect vieillot de la linguistique qu'est la dialectologie, pour garder l'idée essentielle qu'une langue est distribuée dans l'espace et dans le temps selon des grains déterminables objectivement mais aussi des formes, des contours, des schémas d’évolution et qu'elle contient dans son lexique, sa syntaxe des signes évaluables d'évolution permettant de modéliser son avenir.

Le projet DICAUTOPAT : automatisation du recueil et du traitement de faits dialectologiques

Il nous a fallu constituer des programmes informatiques spécifiques traitant les données dialectales. Nous les avons écrits en pascal. L'un de ceux-ci est Dicautopat (dictionnairique automatisée de donnée patoises). D'autres sont en conception ou en chantier. Nous aurons l'occasion de les présenter par la suite. Il est pour nous important que le dialectologue puisse disposer d'outils adaptés à sa recherche. Et nous avons découvert qu'il y avait là toute une technologie à mettre en place.

Dicautopat s'appuie sur les modules suivants :
- organisation du recueil des données de façon structurée
- prise en compte des formes spécifiques des informations brutes de terrain : variation orthographique etc.
 constitution d'une base de données des formes rencontrées en tenant compte :
des orthographes
des lieux
des auteurs
des prononciations
des contextes de production
exploitation de cette base de données dans les directions suivantes :
création automatique de dictionnaires
création d'une lexicométrie dialectale
création d'une base de données syntaxiques
création d'outils de simulation de l'évolution des données linguistiques sur le terrain sous l'angle
géographique et historique.
On dispose là d'un outil permettant de suivre et planifier les données au delà des intuitions communes, des préjugés et d'un traitement de sens commun. D'autres outils viendront renforcer celui-là : traitement de fichiers d'images, traitement de données sonores.

Conclusion

Le dialectologue apparaît comme le spécialiste

- de la définition du terrain à observer
- du mode du recueil des données
- du mode d'organisation des données en vue des traitements ultérieurs
- de la programmation informatique des calculs à opérer sur les données

BIBLIOGRAPHIE

Nous ne produisons ici que les ouvrages qui nous ont permis d'avancer dans le développement d'une linguistique dialectologique. Elle ne contient pas les ouvrages propres à l'étude de chacun des domaines linguistiques dans lesquels nous nous sommes aventurés, ni les ouvrages de linguistique générale ni ceux de sociolinguistique ou d'etholinguistique, ni ceux d'informatique.

Bec P.(1970) Manuel de philologie romane Editions Picard Paris

Benveniste E. (1966) Problèmes de linguistique générale Gallimard T1 T2 Paris

Bourciez E. (1967) Eléments de linguistique romane Klincksick Paris

Breton R (1976). Géographie des langues PUF Paris

Cartier A. Recueil lexicologique de termes et expressions patoises de Maîche en vue de constituer des dictionnaires Français/patois et Patois/Français.

Université de Besançon ( Maîtrise et D.EA) T1 T2 685 p. (sous la direction d'Henri Madec)

Chambers J.K. Trudgill P. (1980) Dialectology Cambridge University Press Cambridge

Colin J.P. (1971) Trésor des parlers comtois Cêtre besançon

Gilliéron J. (1902-10) Atlas Linguistique de la France 13 vol Champion

Grammont M. (1891) Le patois de la Franche-Montagne et en particulier de Damprichard

Leroy M. (1967) Les grands courants de la linguistique moderne PUF Paris

Loth J (1970) Vocabulaire vieux breton Champion Paris

Martinet A. (1955) Economie des changements phonétiques Traité de phonologie diachronique A. Francke Berne

Meillet A.(1950) Les dialectes indo-européens Champion Paris

Meillet A. (1964) Introduction à l'étude comparée des langues indo-européennes University of Alabama Press Massachusetts

Saussure F. (1915) Cours de linguistique générale Edition de référence Payot Paris 1985 ( 3ème et 4ème partie)

Taylor G. (1979) Diccionnario normalizado y comparativo quechua : chachapoyas-lamas L'Harmattan Paris 

Thurnesen R. (1946) A grammar of old Irish The dublin institute for advanced studies Dublin

Varron (1938) On the latin language Harvard University Press London

Videgain (1996) Atlas dialectologique du pays basque Université de Bayonne Bayonne

 

Retour au Sommaire Dialectologie

Retour à l'accueil

 

Valérie BONNEFOY

lexicologie khmère, représentation logique et métalinguistique du temps

 

Aline CARTIER

dialectologie franc-comtoise, dictionnairique patoise : outils et méthodes

 

Yves GILLI

linguistique nissarde : terminologie, sémiologie, littérature

 

Jacques MONTREDON

langues et dialectes aborigènes d’Australie : pragmatique, gestuelle, didactique

 

Henri MADEC

linguistique du breton et des langues celtiques ;

linguistique générale et dialectologie ;

traitement informatique des données dialectales