- Global Voices en Français - https://fr.globalvoices.org -

Utiliser l’intelligence artificielle pour « décoloniser » le langage

Traduction publiée le 20/03/2023 16:16 GMT 1 · Ecrit par Forus Traduit par Pierre-Emmanuel Farret

Catégories: Kenya, Ouganda, Cyber-activisme, Développement, Médias citoyens, Relations internationales, Technologie, The Bridge, Advox

Illustration de Both Nomads/DALL·E 2, avec son autorisation.

Nous avons besoin de trouver un nouveau langage, de nouvelles histoires, une nouvelle vision du monde et des outils pour créer un monde qui surpasse « le grand récit humanitaire ». La technologie peut-elle aider ?

Le mois dernier, nous avons été nombreux à entendre parler des fonctions semblables à celles de Matrix du nouveau ChatGPT, alimenté par l'IA, déstabilisant et choquant les citoyens, les mettant dans d’autres états émotionnels, allant de la peur à l'enthousiasme.

L’utilisation de l’IA reste une niche pour la plupart des organisations de la société civile et les militants. Pourtant, plusieurs initiatives qui utilisent les technologies émergentes et l’intelligence artificielle pour « décoloniser » le langage apparaissent – plus particulièrement dans le secteur du développement.

Le développement linguistique est-il colonial ?

A cette question complexe, la réponse est discutable. La soumission des langues et des cultures européennes sur les peuples colonisés a été un composant clé du processus colonial. Les pouvoirs coloniaux ont imposé leurs langues, ce qui a souvent conduit à l’érosion des langues autochtones. Le développement linguistique peut être considéré comme une continuité de cet héritage, comme il exclut souvent les langues indigènes et minoritaires, celui-ci renforce les modèles de dominance linguistique et culturelle.

« Le langage est une partie critique de l’identité d’une communauté et d’un héritage. A mesure que nous perdons des langages, nous perdons une partie de notre histoire collective et notre culture. La technologie peut nous aider à préserver et à promouvoir ces langages, mais nous devons le faire d’une manière respectueuse et inclusive », dit Anju Mary Paul, responsable de la recherche à FirstVoices ^[1], une plateforme qui inclut des archives linguistiques alimentées par l'IA qui permet aux utilisateurs de rechercher et d’accéder à des enregistrements audio et vidéos de langues autochtones.

« Le fait d’utiliser le français ou l’anglais en développement linguistique alors que certaines communautés d’Afrique ont plusieurs langues tribales pose un problème. Que se passe-t-il quand les personnes ne comprennent pas la langue que nous utilisons ? demande le Dr. Moses Isooba, directeur général du Forum national des ONG de l'Ouganda ^[2] (Uganda National NGO Forum ou UNNGOF).

Lexique et prototype de langue

Isooba fait partie d’une équipe de développement de langue et de prototype lexical ^[3] utilisant l’IA pour développer la communication inclusive, qui est plus ou moins implicitement néocoloniale, sexiste ou raciste. L’idée est d’explorer l’application de l’IA pour redresser et remplacer le lexique du jargon péjoratif, les idiomes et la terminologie « imposés » par les organisations de la société civile impliquées dans l’aide complexe internationale et le secteur du développement.

L’équipe est en train de concevoir un lexique pour transférer le pouvoir de deux façons : premièrement, en abolissant le langage problématique, et en encourageant encore plus la communication inclusive par l’utilisation d’une nouvelle fonction de style trouver-et-remplacer. Deuxièmement, en permettant aux personnes d’utiliser leur propre langue locale : en testant leur travail avec luganda, la langue la plus communément utilisée en Uganda.

Les termes tels que « desk officer » (Responsable de secteur) ou « in the field » (sur le terrain) évoquent l’époque coloniale. Les organisations humanitaires internationales font souvent référence à leurs bureaux dans les pays du Sud comme « country offices » (bureaux de pays) semblables à des avant-postes coloniaux « acting as the remaining rope tying us to the colonial ship » (qui fait office d'unique lien nous rattachant au navire colonial), affirme le Dr. Isooba. Il explique ensuite :

La décolonisation de la langue est d'une importance capitale, car c'est elle qui fixe les conditions d'engagement entre le Nord et le Sud. Dans la mesure du possible, la langue doit être dépolitisée et décolonisée. Le développement et l'aide humanitaire sont politiques, mais notre langue devrait rester non partisane. Les partis politiques vont et viennent, mais les inégalités subsisteront, si notre langage commence à refléter celui des personnes au pouvoir, surtout si les intentions derrière la rhétorique ne sont pas sincères”.

Illustration de Both Nomads/DALL·E 2, avec son autorisation.

Nous ne pouvons pas parler uniquement en acronyme

« Le développement linguistique est devenu tellement riche en jargon, que désormais même nos propres familles ne comprennent pas notre travail», explique Harsh Jaitli, du Réseau d'action volontaire d'Inde ^[4] (Voluntary Action Network India ou VANI).

Le langage est parmi un des plus anciens outils pour le meilleur et pour le pire. Dans un univers connecté, pollué par la désinformation et les attaques, divers militants et organisations de la société civile se concentrent sur des « nouvelles histoires » pour élargir l'espace civique au lieu de le rétrécir.

Au cours de ces dernières années, de nombreuses initiatives et organisations ont travaillé au cœur même de l’IA et du langage. Masakhane ^[5] par exemple une initiative communautaire populaire visant à construire le traitement automatique des langues (Natural Language Processing ou NLP) et des modèles pour les langues africaines, avec pour objectif de les préserver et de les promouvoir dans l’ère du numérique. L’interprétation et la traduction font aussi partie du jeu, et les organisations sont maintenant en train de travailler à l’élargissement du spectre, par exemple avec ce glossaire gratuit de traduction chiwa-anglais de la terminologie du développement ^[6]. AI for the People ^[7]veut promouvoir plus d’inclusion, de développement équitable et déploiement de l’IA. Elle offre aussi des ressources et de l’entrainement pour les communautés qui s’intéressent à l’IA.

Pourtant, selon NeuralSpace, une plateforme qui aide à combler l'énorme fossé linguistique dans le domaine de la technologie, 90% des solutions NLP sont exclusivement disponibles dans des langues européennes. L'IA peut faire tomber les barrières linguistiques pour les six milliards de personnes restantes en luttant contre cette forme d’ « apartheid numérique ». Comment ? En franchissant les barrières linguistiques grâce à des systèmes de traduction complexes ou à des applications d'apprentissage des langues, par exemple. D'autres moyens consistent à créer des archives numériques faisant appel à la reconnaissance optique des caractères ou à la reconnaissance vocale, et à rendre le contenu disponible dans les langues maternelles plutôt que dans les langues « coloniales » omniprésentes.

Mais tout cela semble trop beau pour être vrai. Avant que l'IA puisse décoloniser le langage, l'IA elle-même doit être décolonisée.

Le paradoxe de l'IA

L’IA a le potentiel de transformer les moyens de communication, mais c'est aussi l'émetteur parfait pour exacerber les préjugés existants. « Nous devons nous pencher sur les questions de partialité dans les modèles linguistiques et veiller à ce qu'ils soient inclusifs et représentatifs de tous les utilisateurs », explique Soujanya Poria ^[8], professeur adjoint à l'université technologique de Nanyang.

Le langage auquel l'IA est formée peut déjà être « déformé » et incapable de remplacer la pensée et les comportements humains biaisés.

« La décolonisation de la langue est d'une importance cruciale pour l'autonomisation des communautés et la remise en question des récits dominants. La technologie peut être un outil puissant dans ce processus, mais nous devons veiller à ne pas reproduire les mêmes schémas d'exclusion et de marginalisation que nous essayons de surmonter », déclare le Dr Isooba.

Nous avons demandé à ChatGPT si l'IA pouvait reproduire un langage colonial, raciste ou sexiste, et voici ce qu'il nous a répondu :

En tant que modèle linguistique d'intelligence artificielle, je ne suis pas capable d'avoir ou d'exprimer des croyances, des valeurs ou des préjugés personnels. Toutefois, je reconnais que les données utilisées pour me former peuvent contenir des préjugés et je m'efforce de fournir des informations exactes, impartiales et inclusives. Il est important de noter que ce sont des personnes qui programment et utilisent l'IA, et qu'elles peuvent involontairement intégrer leurs propres préjugés dans le développement et l'utilisation des systèmes d'IA. Il est donc essentiel d'être conscient de ces préjugés potentiels et de s'efforcer de créer et d'utiliser les systèmes d'IA d'une manière éthique, inclusive et responsable. »

Selon Timnit Gebru, de Black in AI ^[9], nous devons cesser de penser à des données « propres » et « sales » mais plutôt penser à des données qui reflètent la diversité du monde réel.

« L'un des meilleurs moyens d'y parvenir est de constituer des équipes diversifiées d’expert en mégadonnées, capables de reconnaître leurs propres préjugés et d'y remédier », explique-t-il.

Sabelo Mhlambi et d'autres chercheurs ont récemment rédigé le Decolonial AI Manyfesto ^[10], afin de « dépasser les préjugés occidentalo-centrés » et de construire « des avenirs sociotechniques dignes ». La société civile est également de plus en plus impliquée dans le développement de l'IA en participant activement aux discussions et débats publics sur les implications éthiques, sociales et politiques des technologies de l'IA. Pourtant, plusieurs dirigeants et militants de la société civile comme Mwarimū Mūtemi wa Kīama ^[11] du Kenya, arrêté pour ses tweets ^[12], soutiennent que l'exclusion délibérée des voix marginalisées des processus de prise de décision en matière de technologie est une forme de violence structurelle.

« Nous devons reconnaître que l'accès à la technologie est un droit humain et veiller à ce que tout le monde soit représenté », déclare Kīama.

Dianne Olivian, militante pour les droits numériques et l'égalité des sexes, nous explique que les personnes marginalisées sont « exclues » des environnements décisionnels parce que ces espaces s'inscrivent dans un cadre néocolonial :

Ceux qui participent habituellement à ces conversations ont également le privilège d'y participer ; ils disposent du capital économique et culturel nécessaire pour y contribuer et s'épanouir. Il y a bien sûr des tentatives pour être représentatif et inclusif, mais nous devrions nous demander : où ces conversations ont-elles lieu ? De quoi ai-je besoin pour participer ? Dans quelle langue s'expriment-elles ? Quelles sont les voix les plus fortes dans la salle ? Que se passe-t-il après ces conversations, quel est le cadre de responsabilité ? »

Après ces réunions « consultatives » sur l'élaboration de politiques en matière de droits numériques et de gouvernance de l'Internet, nous reviendrons tous aux mêmes structures de pouvoir numérique qui autorisent ou non les informations auxquelles nous avons accès et que nous conservons, ainsi que les identités autorisées à exister sur ces plates-formes, affirme M. Olivian :

« Les communautés et les infrastructures numériques réellement inclusives nécessitent un objectif de transformation dès leur création – elles rejettent l'Internet capitaliste. Elles sont guidées par la créativité, le partage, l'attention, le consentement et le bien-être ; elles remettent en question et contournent les infrastructures de surveillance. Et nous construirons cela en commençant par changer d'objectif : au lieu de nous efforcer d'être acceptés par les voix les plus fortes et les plus éloquentes dans une salle de réunion avare, nous nous efforcerons d'occuper l'espace et de chercher ceux qui ne sont même pas en mesure de franchir la porte. »