DigiGlot, une nouvelle lettre d’information sur les langues et la technologie

Pendant une réunion organisée par l'institut des langues vivantes, Elmo Bautista et son défunt père, Espíritu Bautista, enregistrent numériquement les mots de la langue Yanesha, originaire du Pérou. Photo d'Eddie Avila. Reproduction autorisée.

Bienvenue sur le numéro inaugural de DigiGlot, une lettre d'information collaborative bimensuelle sur la manière dont les communautés linguistiques en danger, minoritaires et autochtones adoptent et adaptent la technologie. Ces communautés ont deux objectifs : accroître la présence numérique de leurs langues et changer le paysage Internet en augmentant la diversité linguistique en ligne. Cette publication collective sera organisée par une équipe de volontaires. Les contributeurs seront cités au bas de chaque numéro.

Comme c'est notre premier numéro, nous espérons que le format et le contenu de DigiGlot évolueront dans les prochains mois. Nous sommes toujours à la recherche des retours de lecteurs ainsi que des suggestions pour des articles à inclure dans de prochains numéros. Vous pouvez nous contacter grâce à la page de contact de Rising Voices.

La technologie et l'activisme numérique au menu de l'année internationale des langues autochtones

Avec l'arrivée de 2019, l'année internationale des langues autochtones a officiellement commencé. En décembre 2016, l'assemblée générale des Nations Unies a proclamé 2019, année de campagne de sensibilisation coordonnée par l'UNESCO, axée sur cinq domaines, dont le renforcement des capacités et l'intensification de la coopération internationale. Un consortium d'organisations liées aux langues se forme pour mettre en lumière la campagne sur les réseaux sociaux à l'aide du hashtag #IYIL2019. En tant que partenaire à part entière de la campagne, l'UNESCO a lancé un appel pour des documents de recherche, dont un des thèmes principaux est « Technologie, activisme numérique et intelligence artificielle (par exemple la technologie langagière). »

Les caractères latins « étendus » ralentissent-ils la croissance des Wikipédias africains ?

L'un des héritages immédiats du colonialisme européen dans l'Afrique actuelle est un patchwork incohérent de systèmes d'écriture pour les langues locales. Bien que de nombreuses langues africaines aient été écrites à l'aide de l'alphabet latin depuis plusieurs décennies, les langues ont grandement varié dans leur utilisation des lettres accentuées et spéciales, ou encore les caractères latin « étendus ». Certaines langues sont même écrites différemment de part et d'autre des frontières nationales. Dans ces séries d'essais [parties 1, 2, 3], Don Osborn réfléchit sur quatre décennies de standardisation, normalisation de la langue africaine. Il explique comment les décisions initiales sur l'orthographe peuvent avoir des conséquences sur la production des médias numériques aujourd'hui.

Osborn suggère que le défi présenté par l'utilisation d'orthographes latines étendues—celles qui obligent les utilisateurs à passer par des interfaces d'entrée non normalisées pour taper les caractères « spéciaux » dans leur langue—peut limiter le développement de quelques Wikipédia africains. Son analyse révèle que les Wikipédias africains « écrits dans un Latin étendu et complexe représentent en moyenne environ un tiers du nombre d'articles » comme l'écrivent ces Wikipédias en alphabet Latin plus simple. Alors que Osborn reconnaît que son analyse n'est qu'un début, ses observations mettent utilement l'accent sur certaines des complexités du développement des écologies numériques dans les langues locales.

Le sélecteur universel de langues de Wikipédia ajoute trois langues d'Afrique de l'Ouest

Ayokunle Odedere est un wikipédien nigérian et coordinateur de Wikimédia Hub à Ibadan, au Nigeria. Il organise et mobilise des activités ainsi que des campagnes telles que le récent projet AfroCiné. En travaillant sur Wikipédia, Odedere a constaté que les rédacteurs nouveaux comme expérimentés, avaient du mal à taper les marques diacritiques nécessaires dans les articles Wikipédia pour les langues nationales telles que le yoruba, le haoussa, et l’igbo.

Il existe des claviers spéciaux comme les claviers de Yoruba Name pour Mac et Windows ainsi que d'autres claviers virtuels qui permettent aux utilisateurs d'afficher ces caractères spéciaux. Mais ils nécessitent un certain degré de connaissances techniques pour les mettre en place et les utiliser. Odedere a envisagé une solution créée au sein de Wikipédia même. Il a déposé une demande sur la liste de voeux de la communauté Wikimédia pour inclure le yoruba, le haoussa et l'igbo dans le sélecteur universel de langues (ULS), un service disponible pour Wikipédia et d'autres projets Wikimédia pour « permettre aux utilisateurs de taper des textes dans différentes langues non directement prises en charge par leurs claviers, de lire le contenu dans un texte pour lequel les polices ne sont pas disponibles localement ou bien encore de personnaliser la langue dans laquelle les menus sont affichés. ». La demande a été accordée et l’équipe linguistique de la fondation Wikimédia a intégré les trois langues de l'Ouest africain dans le ULS. À l'aide d'un ordinateur portable ou de bureau, les rédacteurs de Wikipédia peuvent désormais incorporer les caractères spéciaux dans leurs textes en tapant le caractère tilde (~) avant la lettre correspondante.

Moderniser le texte de langue hawaïenne en un simple clic

Avec plus de 125 000 pages de journal publiées au 19ème et au début du 20ème siècle, la langue hawaïenne a une longue tradition d'écriture. Malheureusement, la plupart de ces textes ont été écrits dans une orthographie conçue par des missionnaires qui, contrairement à l'orthographe moderne classique, ne reflète pas pleinement le système sonore de la langue. Autrement dit, ces anciens textes sont à la fois difficiles à lire par les locuteurs actuels, et pas facilement utilisables pour la formation des systèmes de processus de langues naturelles. Cet article de chercheurs de l'université d'Oxford et de Google Deep Mind, décrit un système qui combine ce qu'on appelle les « transducteurs à états finis », une technologie bien connue sur le terrain, avec un deep learning pour développer un système de modernisation automatique des textes hawaïens. Cette approche pourrait être appliquée aux nombreuses autres langues qui ont subi des changements orthographiques ou une normalisation.

Siri et Alexa parleront-ils gallois un de ces jours ?

Eluned Morgan, ministre de la langue galloise du gouvernement gallois a affirmé l'importance des enceintes connectées et des appareils obéissant à la voix tels que Alexa et Siri qui accueillent les locuteurs de la langue galloise. Cet objectif fait partie du plan d'action technologique de la langue galloise du gouvernement, lancé le 23 octobre 2018.

Le plan reconnaît le rôle que la technologie joue dans la vie quotidienne et l'importance pour les locuteurs gallois d'être capable d'utiliser leur langue pour se servir de la technologie : « Nous voulons que la population soit capable d'utiliser facilement le gallois et l'anglais dans leurs vies virtuelles à la maison, à l'école, au travail ou en déplacement. » Afin d'avoir un million de locuteurs gallois d'ici 2050, la loi sur la langue galloise et les technologies recommande le développement de l'intelligence artificielle afin que les machines puissent comprendre le gallois parlé, et l'amélioration de la traduction assistée par ordinateur.

Les technologies de reconnaissance vocale aident à documenter la langue seneca

Une équipe de chercheurs à l'institut de technologie de Rochester aux États-Unis développe la technologie de reconnaissance vocale pour faciliter la documentation et la transcription de la langue seneca. Le seneca est une langue amérindienne menacée, parlée actuellement par moins de 50 personnes, d'où l'urgence de documenter et de préserver cette langue. Comme l'enregistrement et la transcription manuelle de la parole sont coûteux et prennent beaucoup de temps, les chercheurs cherchent alors à exploiter la technologie de reconnaissance vocale pour aider à cette tâche.

La reconnaissance vocale est un processus technologique qui reconnaît les sons produits par la voix humaine et les transcrit automatiquement sous forme écrite. Développer les systèmes de reconnaissance vocale pour les langues avec peu de sources de données est un défi, car ces systèmes nécessitent une grande quantité de données pour les « former » à identifier la langue. Pour cette recherche de pointe, l'équipe s'est vu accorder 181.682 dollars (159 600 €) sur quatre ans par la Fondation nationale américaine pour la science.

Événements & opportunités à venir

Le Projet Langues en danger collabore avec le Language Documentation Training Center (LDTC) pour proposer gratuitement une fois par semaine des séries de conférence en ligne sur la documentation linguistique en février et mars 2019. Les personnes intéressées peuvent s’inscrire à l’aide de ce formulaire.
La campagne de subvention des patrimoines linguistiques pour le fonds des langues en danger de 2019 est maintenant ouverte. Ces subventions offrent jusqu'à 4.000 dollars (3.517 €) (en moyenne 2.000 dollars (1.757 €)) pour soutenir les efforts de documentation et de revitalisation linguistiques dans le monde. Les candidats potentiels n'ont pas besoin d'une formation universitaire. La date limite d'inscription est le 15 mars 2019.
Le PULiiMA 2019 – Forum national sur le langues autochtones et les technologies se tiendra à Darwin, en Australie, les 19-22 août 2019. Un appel aux conférenciers est lancé. La date limite de candidature est le 9 février 2019.

Cette étude a vu le jour grâce aux contributions d’Anna Belew, de Derek Lackaff, de Kevin Scannell, de Claudia Soria, et d’Eddie Avila, ainsi qu'au travail d’édition de Georgia Popplewell.

Cet article est publié sur Rising Voices, un projet de Global Voices qui aide à diffuser les médias citoyens dans des lieux qui n'y ont normalement pas accès. Tous les billets

Ecrit parRising Voices

Recevez de superbes histoires du monde entier par emails.