- Global Voices en Français - https://fr.globalvoices.org -

Inde : la langue odia en traduction chez Google et Microsoft

Catégories: Asie du Sud, Inde, Langues, Médias citoyens, Technologie, Rising Voices
Collage of Odia Book Covers. Image via Flickr by Erin Mclaughlin. From the Flickr set Odia Book Covers. CC BY 2.0. [1]

Collage composé de couvertures d’ouvrages en odia. Image via Flickr par Erin Mclaughlin [2]. Issue de l’ensemble Flickr Odia Book Covers, sous licence CC-BY 2.0 [3].

L'article original a été publié en août 2020.

Sauf indication contraire, les liens de l'article renvoient vers des pages en anglais.

Cette année, Google et Microsoft ont ajouté l’odia, une des langues de l’Inde [4] [fr], à leurs moteurs de traduction automatique respectifs, devançant les projets open source en cours. Google Traduction [5] l’a intégré en février, suivi un peu plus tard par Microsoft [6], le 13 août.

L’odia [4] [fr] est la langue officielle principale de l’État de l’Odisha [7] [fr] et la deuxième langue officielle de l’État du Jharkhand [8] [fr]. Avec 35 millions de locutrices et locuteurs natifs, il est aussi parlé comme deuxième langue par 4 millions de personnes. De plus, le gouvernement indien lui a conféré le statut de « langue classique » [9] selon tout un ensemble de critères, parmi lesquels 1 500 ans de tradition littéraire attestée.

Mais l’importance de la langue odia dans le domaine numérique est limitée. [10] Un exemple : ressuscité en 2011 après neuf ans d’inactivité [11], le Wikipédia en odia, un des plus vastes réservoirs de contenu textuel dans cette langue, ne compte que 15 858 articles. [12] À l’inverse, la version en malayalam de l’encyclopédie en compte près de 70 000 [13], avec quasiment autant de locuteurs que l’odia. Pendant longtemps, le contenu en ligne dans cette langue n’a été disponible que sous forme d’images et de documents PDF. Certaines sources, comme le magazine gouvernemental de l’Odisha Utkal Prasanga [or] [14], sont encore réduites à un tel assemblage. En raison de l’adoption tardive des caractères Unicode,  [15]les résultats en odia étaient peu nombreux sur les moteurs de recherche.

La traduction automatique est un outil de poids quand il s’agit d’accroître l’importance d’une langue dans le domaine numérique. En effet, elle rend les contenus plus faciles à trouver sur les moteurs et plus accessibles aux non-locuteurs.

Les services de cloud proposés par Microsoft, comme Microsoft Translator [fr] [16], Office, Bing Traducteur [fr] [17] et Azure Cognitive Services [en/fr], [18] prendront bientôt tous en charge les traductions de l’odia. Sur le Web [fr] [19] et sous forme d’application [20], Microsoft Translator et Google Traduction permettent de traiter un texte dès qu’il est copié dans le champ de saisie.

En outre, ces plateformes sont capables de traduire des documents textuels, des sites Web et des discussions en direct. La version mobile de Google Traduction possède des fonctionnalités supplémentaires : traduction hors connexion, reconnaissance d’écriture, scan, traduction et lecture de textes à partir d’images [21], communication avec un locuteur ou une locutrice native d’une langue étrangère grâce à la commande vocale [22]. Une fonction appelée « Tap To Translate » permet à la personne qui l’utilise de traduire un texte dès sa saisie, dans n’importe quelle application. La synthèse vocale de Google donne aussi à entendre la prononciation des phrases dans les langues prises en charge.

Pour ces raisons, l’ajout de l’odia [à ces plateformes] a été salué par le gouvernement de l’État de l’Odisha. Le cabinet de son ministre-président a déclaré sur Twitter :

Nous y sommes : la traduction en odia a été ajoutée par @Microsoft à son @mstranslator. C’est la 12e langue indienne fréquemment parlée à y être intégrée. Cette avancée facilitera l’accès aux informations internationales en #Odia et favorisera les relations entre communautés linguistiques.

Le ministère de l’Électronique et de l’Informatique de l’Odisha a lui aussi réagi à la nouvelle :

L’outil @Google Traduction, utilisé par des millions de personnes à travers le monde, vient d’ajouter l’#Odia à sa liste de langues. C’est une étape majeure dans la promotion de l’habileté numérique dans notre langue maternelle, mais aussi une voie d’accès pour celles et ceux qui ne la parlent pas. #OdiaSurGoogle

La traduction automatique
La traduction automatique sert à traduire un texte écrit ou oral dans une langue source vers une langue cible. Le procédé de Google est basé sur la traduction automatique neuronale [34], un système numérique lui-même fondé sur la technique des « réseaux neuronaux artificiels » [fr] [35]. De vastes ensembles de données rassemblant des traductions de parties de phrases (de la langue source à la langue cible [36]) y sont utilisés pour entraîner un moteur de traduction.

Avec l’odia, Google Traduction et Microsoft Translator prennent désormais en charge 11 langues d'Inde chacun. Google a intégré un total de 109 langues parlées dans le monde, alors que Microsoft n’en compte que 73.

Cependant, les projets de traduction automatique en odia portés par des initiatives open source n'ont pas encore abouti.

Au moins un d’entre eux, MTEnglish2Odia,  [37]organisé au niveau communautaire, est en cours de mise au point : il consiste à entraîner un moteur de traduction automatique en collectant des unités de traduction à partir de sources existantes telles que le Wikipédia en odia [38] [or] et la production participative [39] (crowdsourcing) de contenu issue de contributions sur Twitter [40].

Viennent s’y ajouter des recherches [41] et des ressources [42] utiles pour les autres organisations qui souhaiteraient créer de tels moteurs.

La traduction automatique, un sujet politique

La technologie utilisée par Google Traduction et Microsoft Translator est complexe d’un point de vue social, juridique, éthique et civique.

D’une part, une plateforme de traduction automatique peut constituer un outil précieux pour de nombreuses personnes, comme les journalistes, qui peuvent ainsi consulter rapidement les actualités en de nombreuses langues, ou les étudiantes et étudiants désireux d’apprendre à l’aide de ressources multilingues.

De même, la synthèse vocale facilite l’accès aux informations et la transmission de celles-ci aux personnes en situation de handicap, et en particulier aux aveugles.

L’éducation, les médias et le secteur du divertissement tirent eux aussi avantage du potentiel de Google Traduction en traduisant du contenu en grande quantité et en peu de temps.

D’autre part, la traduction automatique peut accélérer la désinformation ; la synthèse vocale, elle, facilite la tâche des escrocs, qui peuvent approcher leurs proies en communiquant avec elles dans leur langue.

6 000 langues [43] sont actuellement documentées à travers le monde, mais seule une minorité possède un système d’écriture. Ce sont elles qui sont intégrées à des projets de traduction automatique tels que Google Traduction et Microsoft Translator.

Pour les organisations à but lucratif, la disponibilité des contenus en ligne dans une langue donnée ainsi que le nombre d’utilisatrices et utilisateurs d’Internet qui la parlent sont des facteurs majeurs quand il s’agit de choisir les langues à inclure dans leurs systèmes. Plus une entreprise en intègre, plus le contenu fourni aux utilisatrices et aux utilisateurs est ciblé… et plus le chiffre d’affaires issu de la publicité [44] [fr] est élevé.

De plus, les projets comme Google Traduction posent des questions éthiques, relatives à l’attribution et à la rémunération des contenus. En effet, leur organisation comprend un aspect contributif [45] [fr] : les membres de la communauté Google révisent les traductions existantes, favorisant l’amélioration régulière de l’outil par les ingénieurs.

Si Google est une entreprise à but lucratif, aux divers produits payants — parmi lesquels un service de traduction dans le cloud [46] [fr] —, ni les bénévoles ni les nombreuses sources publiques alimentant le moteur ne sont créditées ou rémunérées.

Le recours aux communications non publiques pour améliorer l’apprentissage automatique et l’intelligence artificielle est également controversé sur le plan de la protection de la vie privée… même si Google s’efforce d’anonymiser ces données [47].

Dans un pays comme l’Inde, où la création de contenu en plusieurs langues se heurte à des contraintes financières, les produits comme Google Traduction et Microsoft Translator peuvent révolutionner ce secteur de l’économie. Ils peuvent faire la différence au sein de projets comme Wikipédia, déjà disponible en 23 langues indiennes [48], ou StoryWeaver [49], une plateforme multilingue de littérature enfantine largement fondée sur le travail bénévole.

Beaucoup de langues de l’Inde connaissent un déclin rapide [50] ; à cela s’ajoutent les défis de l’analphabétisme et de l’accès au numérique. Dans ce contexte, le développement des communications nécessite plus d’innovation dans le domaine des technologies vocale et visuelle. Si la traduction automatique peut être un outil viable pour stopper l’extinction des langues, le chemin, en Inde, est encore long pour y parvenir.

Avertissement : l’auteur est bénévole au sein du projet de Wikipédia en odia et pour MTEnglish2Odia [37] depuis ses débuts.