La reconnaissance automatique de la parole pour maintenir en vie le quechua et d'autre langues autochtones

Capture d'ecran d'une video de YouTube, publiée par l'informaticien Luis Camacho Caballero.

Kuélap n'est pas uniquement un célèbre site archéologique pré-inca des Chachapoyas (peuple des Andes) situé dans le département d’Amazonas au Pérou.C'est aussi le nom donné à l'outil de collecte de données du projet QuechuaASR, dont l'objectif est de créer un système de reconnaissance automatique de la parole (RAP) pour le quechua.

Le Quechua est toute une famille de langues parlées par des populations autochtones vivant essentiellement dans les régions andines d'Amérique du Sud, langues considérées comme en danger par des organisations comme l'UNESCO. Le nombre véritable de leurs locuteurs est difficile à évaluer, et la large domination de l'espagnol dans la région, notamment dans l'enseignement institutionnel, rend difficile pour les locuteurs de quechua de développer leur langue. Les discriminations de toute sorte subies par les populations autochtones figurent parmi les principales causes de vulnérabilité. Il y a des parents qui s'abstiennent d'apprendre le quechua à leurs enfants de peur qu'ils ne puissent s'intégrer dans la société, et d'autres qui le parlent le perdent en migrant dans les grandes métropoles. Comme le raconte Lorenzo Colque Arias, président de l'Académie de la langue quechua à Arequipa :

El habitante arequipeño es muy agresivo cuando escucha a una persona hablar en quechua, lo margina, lo discrimina, y lo peor de todo es que esa misma persona sabe hablar y entiende perfectamente el idioma, es un migrante ya radicado en la ciudad y ahora ya discrimina.

L'habitant d'Arequipa devient très agressif quand il entend quelqu'un parler quechua, il le marginalise, le discrimine, et le pire, c'est que lui-même parle et comprend parfaitement la langue, c'est un migrant déjà enraciné dans la ville et à présent il discrimine.

A la tête de ce projet se trouve l'ingénieur informaticien Luis Camacho. C'est en voyant avec inquiétude l'étendue du travail à accomplir pour éviter que disparaissent certaines langues autochtones d'ici la fin de ce siècle, qu'il a décidé de lancer ce projet. Il l'explique sur sa page Facebook, appelée Atuq Kamachikuq (“atuq” signifiant le renard en quechua) :

Je poursuis mon plus grand rêve : la transcription informatique de toutes les langues andines et amazoniennes.

Dans une publication faite sur Facebook en 2015, Luis Camacho a fait appel à des locuteurs quechua pour enregistrer un minimum de cent mille mots, utilisés au moins par cent personnes. Les cent personnes en question devaient être des locuteurs quechua natifs,et non des personnes qui avaient appris le quechua en seconde langue.

Pour parvenir à ses fins, il a fait appel à des volontaires, quelque soit leur lieu de résidence, pourvu qu'ils soient des locuteurs natifs de langues autochtones. La première étape consistait à leur faire lire à haute voix les textes compilés.

Pour la seconde étape, les volontaires sont chargés de transcrire l'enregistrement audio. Enfin, pour les groupes conversationnels, il a réuni un groupe de personnes pour débattre de différents thèmes de la vie quotidienne, et c'est ainsi que les fichiers audio à transcrire seront enregistrés.

Ce n'est pas le contenu des enregistrements qui constitue l'intérêt principal de l'étude. La clé centrale est la compilation du lexique de façon à former un dictionnaire de voix. Le but de l'étude est d'enregistrer le lexique des langues autochtones pour créer un recueil de mots qui servira à construire une base de données compatible avec le développement des outils informatiques.

Global Voices s'est entretenu brièvement avec Luis Camacho à propos de l'avancée de son projet

Luis Camacho (LC): Nous avons déjà réuni cent heures de corpus de voix et de textes ordonnés en phrases. Nous avons pu obtenir cela grâce à des dons audio par des entreprises de radiodiffusion du sud du Pérou, et aussi grâce à la participation d'un millier de volontaires. J'insiste sur le fait que la construction du Corpus est un processus permanent, et c'est la raison pour laquelle nous avons toujours besoin de dizaines de milliers de volontaires. Tout le monde est bienvenu !

GV:  Quel est l'objectif final de ce projet ?

LC: Le but final est le traducteur automatique. Actuellement, nous travaillons sur la première étape qui est le convertisseur de la voix en texte. Nous nous sommes engagés à lancer cela début 2018.

GV: Quels sont vos plans pour la suite ?

LC: Continuer pour achever le traducteur. J'espère aussi commencer cette année la compilation de corpus d'autres langues, comme l'aymara et l'ashaninka pour démarrer. Parmi mes projets à long terme, je souhaite réaliser la transcription informatique complète de la plupart de nos langues ainsi que de quelques autres langues de pays sud-américains. Mais pour cela j'ai besoin de financements, et je suis en permanence à la recherche de fonds.

Mais ce n'est pas tout : Camacho a aussi proposé de créer un traducteur automatique de quechua/aymara vers le castillan [l'espagnol], l'anglais et le chinois et vice versa. Dans cette vidéo [en espagnol], il nous explique le fonctionnement de l'outil de transcription d'enregistrements audios en quechua :

Si vous souhaitez participer au projet, merci de contacter Luis Camacho à l'adresse mail qichwa@pucp.pe.

Commentez

Merci de... S'identifier »

Règles de modération des commentaires

  • Tous les commentaires sont modérés. N'envoyez pas plus d'une fois votre commentaire. Il pourrait être pris pour un spam par notre anti-virus.
  • Traitez les autres avec respect. Les commentaires contenant des incitations à la haine, des obscénités et des attaques nominatives contre des personnes ne seront pas approuvés.