Traduire ou trahir : l'impact des modèles d'IA sur les communautés linguistiques à ressources limitées

Speech bubbles in many non-ENglish languages. Photo by Zhendong Wang on Unsplash.

Image de Zhendong Wang. Utilisée gratuitement via la Unsplash license.

Cet article fait partie du dossier spécial d'avril 2026 de Global Voices sur les « Perspectives humaines sur l'IA », qui a apporté un éclairage sur la manière dont l'IA est utilisée dans les pays de la majorité mondiale. Le dossier a notamment examiné l'impact de l'utilisation de l'IA et de sa mise en œuvre sur les différentes communautés, ce que cette expérience en matière d'IA pourrait signifier pour les générations futures, et bien plus encore. Pour soutenir ce projet, vous pouvez faire un don ici.

Les entreprises qui développent des produits alimentés par l'intelligence artificielle (IA) ont vendu ces produits en les présentant comme des opportunités pour les consommateurs de prendre une longueur d'avance. Parallèlement, la réalité montre qu'une multitude de clients potentiels en dehors des pays du Nord sont laissés pour compte. 

Un article publié en 2025 par le Stanford Institute for Human-Centered Artificial Intelligence (HAI) fait notamment remarquer que de nombreux grands modèles linguistiques (LLM) très répandus peinent souvent à fonctionner dans des langues autres que l'anglais. Les chercheurs ont d'ailleurs attiré l'attention sur le fait que les LLM accessibles au grand public, y compris ceux développés en partie par des entreprises telles que Google et Meta, génèrent des réponses inadaptées aux utilisateurs faisant pourtant partie de la majorité mondiale. En conséquence, ces utilisateurs doivent se contenter d'outils d'IA biaisés et peu fiables, ce qui renforce l'idée que les grandes entreprises considèrent leurs besoins comme secondaires.

Les personnes parlant des langues disposant de peu de ressources, c'est-à-dire celles pour lesquelles il n'existe pas suffisamment de données pour former correctement les solutions basées sur l'IA, ne sont pas en mesure de profiter des avantages de cette innovation. La prédominance des contenus en anglais sur Internet a fortement influencé le développement des outils disponibles actuellement sur le marché, ce qui a créé de facto un obstacle pour les personnes non anglophones intéressées par l'IA à travers le monde. 

Les applications améliorées par l'IA produisent également des résultats qui reflètent les normes et les valeurs d'une poignée de membres de la communauté internationale. Les tentatives visant à remédier à ce problème en générant des données linguistiques pour les langues à faibles ressources ont en outre parfois fait plus de mal que de bien. Si ce statu quo perdure, les communautés non anglophones continueront de perdre du terrain dans la course à l'exploitation du potentiel de l'IA.

Une exclusion numérique qui perdure

Le manque de données dans les langues peu représentées ne pose pas seulement problème aux ingénieurs en IA : c'est la majorité des citoyens ordinaires à travers le monde qui ne peut pas profiter des innombrables avantages de cette technologie en raison de cette lacune criante. Le New York Times a même souligné que la concentration du secteur de l’IA dans les pays riches, tels que les États-Unis, exacerbe ce problème. Combinées à l'abondance de données dont disposent les entreprises de ces régions, les infrastructures existantes dans des pôles comme la Silicon Valley font  d'autant plus pencher la balance en faveur des pays du Nord. Ainsi, les millions de personnes qui parlent des langues comme le kurde et le swahili sont de facto reléguées au second plan, au même titre que les marchés considérables qu'ils représentent. Faute de ressources comparables à celles de leurs homologues anglophones, les locuteurs natifs d'autres langues risquent de rester ignorés par les entreprises spécialisées en IA pendant encore longtemps.

Les implications de cette disparité entre les langues sont considérables. Alors que les habitants du monde anglophone se sont habitués à utiliser l'IA pour diverses tâches, les personnes issues de communautés linguistiques défavorisées n'ont pas eu la même chance. Comme l'a évoqué Wired, les utilisateurs de la majorité mondiale risquent de constater que le recours à un modèle de langage de grande envergure (LLM), tel que ChatGPT, pour obtenir de l'aide ne leur apporte que des réponses au mieux peu utiles, au pire sans aucune valeur. Demander à un modèle de rédiger un e-mail en tamoul, par exemple, peut aboutir à un texte non structuré et truffé d’erreurs. Ces mêmes utilisateurs pourraient alors conclure que des outils d’IA imparfaits font plus de mal que de bien. À mesure que l’IA se généralise dans tous les secteurs et toutes les disciplines, les personnes non anglophones risquent de se retrouver contraintes de naviguer dans une économie de plus en plus interconnectée et monolingue.

Une marginalisation des cultures diverses

Le parti pris de l’IA en faveur de l’anglais a également des répercussions qui vont bien au-delà des simples considérations financières sur les communautés linguistiques défavorisées. Plus précisément, la vision du monde qui transparaît dans les réponses générées en masse par les outils d’IA les plus utilisés reflète celle des anglophones du Nord. The Atlantic a attiré l’attention sur ce phénomène, notamment en soulignant qu'il illustre la manière dont les croyances des pays disposant de ressources importantes finissent par être considérées comme universelles. La faible représentation des perspectives non anglophones dans les données d’entraînement utilisées par les solutions d’IA conduit à leur exclusion. Ainsi, les membres de ces communautés peuvent se sentir lésés par les grands développeurs du secteur de l'IA, surtout à la lumière de leur promesse initiale d'une technologie qui constituerait un atout pour l'humanité. Certes, les outils conçus par ces géants de l'industrie ne cesseront de gagner en sophistication, mais les opinions et valeurs reflétées dans leurs résultats resteront probablement les mêmes.

Certains acteurs du secteur de l'IA ont cherché à corriger ce déséquilibre en créant davantage de contenu numérique dans des langues peu représentées ; toutefois, les résultats de ces initiatives sont loin d'être satisfaisants. Le MIT Technology Review a examiné dans quelle proportion ce nouveau contenu numérique, qui provient de contenus extraits du Web pour améliorer des produits tels que les modèles de langage de grande échelle (LLM), était truffé d'erreurs. Cela s'explique par le fait que certains sites utilisés pour améliorer les capacités multilingues de l'IA regorgent eux-mêmes d'erreurs de traduction automatique. Dans certains cas, ce sont même des personnes bien intentionnées cherchant à réduire le fossé linguistique qui sont à l’origine de ces erreurs. Le problème, c'est que beaucoup ne disposent pas de l’expertise nécessaire pour évaluer l’exactitude de leur travail. Leur contenu est publié tel quel sur le web et finit par être utilisé par l’IA pour améliorer sa « maîtrise de la langue ». À ce stade, les communautés linguistiques à faibles ressources pourraient bien conclure que le mal est fait.

Changeons de stratégie

Malgré ces inquiétudes, les entreprises du Nord spécialisées dans l'IA avancent à toute vitesse pour dominer ce secteur lucratif. Pourtant, il conviendrait justement de prendre le temps de réfléchir aux conséquences de leurs actions à plus grande échelle. Par exemple, les communautés linguistiques disposant de peu de ressources semblent avoir été négligées par les développeurs de produits, ce qui les a placées dans une situation défavorable par rapport aux anglophones. Des rapports issus du secteur mettent également en évidence l’émergence d’une hiérarchie culturelle qui privilégie les anglophones, et soulignent la nécessité de démanteler ce système en plein essor avec réflexion et détermination. Prises dans leur ensemble, ces tendances soulignent à quel point la philosophie du « move fast, break things » (« aller vite, casser des choses »), qui caractérise le secteur technologique depuis des années, est toujours bien présente à l’ère de l’IA. Hier comme aujourd’hui, ce sont les populations non anglophones qui en subissent les conséquences.

Des mesures peuvent être prises pour rétablir l’égalité des chances pour tous. Cela commence par une concertation avec les communautés qui ont été mises à l’écart dans la course effrénée au déploiement de l’IA. Les principaux développeurs doivent rechercher des partenariats collaboratifs avec les communautés linguistiques peu représentées afin de remédier à cette inégalité émergente. Intégrer les contributions de ces populations lors de la conception de solutions telles que les LLM, tout en vérifiant les résultats pour s’assurer qu’ils sont à la fois exacts et authentiques, doit être une priorité pour les entreprises qui souhaitent faire la différence. De plus, ces dernières pourraient également s’associer à des acteurs de terrain de l’IA déterminés à créer des outils mieux adaptés aux besoins des locuteurs de langues moins répandues. En adoptant cette approche, sensible aux différences culturelles, l’IA peut être développée et affinée de manière à profiter au plus grand nombre, et non à une poignée de privilégiés.

Commentez

Merci de... S'identifier »

Règles de modération des commentaires

  • Tous les commentaires sont modérés. N'envoyez pas plus d'une fois votre commentaire. Il pourrait être pris pour un spam par notre anti-virus.
  • Traitez les autres avec respect. Les commentaires contenant des incitations à la haine, des obscénités et des attaques nominatives contre des personnes ne seront pas approuvés.