Lettre d'information DigiGlot : Les innovations de l'IA, de bonnes et mauvaises nouvelles pour les langues autochtones et minoritaires

Image : albyantoniazzi. Utilisée sous licence CC BY-NC-SA 2.0.

Les technologies de l'intelligence artificielle (IA) peuvent interpréter le langage humain de différentes manières. Elles suscitent ainsi un énorme intérêt. Les chatbots, les logiciels de traduction et les assistants intelligents comme Siri ou Alexa dépendent tous de la compréhension de notre utilisation du langage.

Il y a quelques semaines, la société de recherche à but non lucratif  OpenAI a publié un article [en] présentant leur nouvelle approche de la modélisation informatique de la langue anglaise. Les auteurs fournissent un nombre d'exemples de textes générés par ordinateur à partir de leur nouveau modèle. Selon eux, il s'avère impossible de distinguer ces textes de ceux qu'un humain pourrait produire. OpenAI a décidé de ne pas publier le modèle par crainte qu'il soit détourné, par exemple, pour créer des robots malveillants sur Twitter ou d'autres plateformes de médias sociaux.

Et comme toujours, cela pourrait signifier à la fois de bonnes et de mauvaises nouvelles pour les langues autochtones et minoritaires. La bonne nouvelle, c'est que ces modèles ne nécessitent pas de données spéciales pour la formation. Ils peuvent être réalisés tant que les programmeurs disposent d'une collection suffisamment importante de textes dans la langue cible (par exemple à partir de Wikipédia). Une fois qu'un modèle est créé, il peut être utilisé pour développer des technologies d'IA plus avancées dans cette langue.

Quelques mauvaises nouvelles malgré tout : premièrement, ces modèles nécessitent une énorme quantité de texte à former, des millions ou des milliards de mots, et une puissance informatique importante. Deuxièmement, la recherche dans ce domaine continue de se concentrer à près de 100 % sur l'anglais et rien ne garantit que les mêmes modèles fonctionneront aussi bien pour les langues plus complexes. Et il faut toujours se rappeler que ces technologies peuvent être utilisées aussi aisément pour servir l'intérêt public que pour faciliter la collecte de données par les entreprises technologiques. Toutefois, nous espérons découvrir plus de recherches dans ce domaine pour les langues sous-financées, et éventuellement des technologies d'IA qui soutiennent ces langues.

Écoutez les « Derniers chuchotements » des langues mourantes

Une énigme zen vieille de plusieurs siècles pose la question suivante : Quel est le bruit d'une main qui applaudit ? Elle est destinée à libérer une personne de son état d'esprit habituel, afin de permettre une autre façon de penser.

Lorsque Lena Herzog, artiste plasticienne multimédia, a examiné la biodiversité linguistique mondiale et a mesuré le rythme alarmant de l'extinction des langues. Elle a alors décidé de représenter les langues en péril d'une manière totalement différente.

Elle a rassemblé des enregistrements de langues presque disparues ou déjà éteintes avec des images de sites naturels prises par des drones, pour produire ce qu'elle décrit comme un « oratorio immersif de 45 minutes ». Le résultat, appelé Last Whispers, est un voyage audiovisuel envoûtant en noir et blanc à travers une forêt de sons articulés en Tehuelche, Nivkh, Nahuatl, Warlpiri, Ainu, Koyukon, Nafsan, Jul'hoan, Surel, Ongota et Qaqet. Lorsque ces langues perdent leurs derniers locuteurs, les auditeurs se retrouvent dans une forêt absolument silencieuse.

La cartographie des langues premières d'Australie

First Languages Australia a récemment relancé sa ressource en ligne Gambay qui affiche les noms privilégiés de langues des Aborigènes et Insulaires du Détroit de Torrès ainsi que leurs emplacements respectifs à travers le pays. Le mot Gambay signifie « ensemble » en butchulla. Développée sur Mapbox, une plateforme de cartographie open source, la carte permet aux utilisateurs de localiser les centres de langues qui sont en première ligne des efforts de revitalisation linguistique, avec les meilleures options pour intégrer les médias numériques provenant d'une variété de sources.

Capture d'écran de la carte Gambay.

 

S'abonner à la lettre d'information DigiGlot par courriel

 

 

Cette étude a vu le jour grâce aux contributions de Kevin Scannell, Filip Noubel et Eddie Avila ainsi qu'au travail d’édition d’Ellery Biddle.

Commentez

Merci de... S'identifier »

Règles de modération des commentaires

  • Tous les commentaires sont modérés. N'envoyez pas plus d'une fois votre commentaire. Il pourrait être pris pour un spam par notre anti-virus.
  • Traitez les autres avec respect. Les commentaires contenant des incitations à la haine, des obscénités et des attaques nominatives contre des personnes ne seront pas approuvés.