Le projet qui rassemble un énorme nouvel ensemble de données

Le projet qui rassemble un énorme nouvel ensemble de données

Les outils d’intelligence artificielle (IA) comme ChatGPT, DeepSeek, Siri ou Google Assistant sont développés par les pays du Nord et formés en anglais, chinois ou langues européennes. En comparaison, les langues africaines sont largement absentes d’Internet.

Une équipe d'informaticiens, de linguistes, de linguistes et autres africains travaille précisément sur ce problème depuis deux ans déjà. Le projet African Next Voices a récemment publié ce qui est considéré jusqu’à présent comme le plus grand ensemble de données sur les langues africaines pour l’IA. Nous les avons interrogés sur leur projet, avec des sites au Kenya, au Nigeria et en Afrique du Sud.

Pourquoi le langage est-il si important pour l’IA ?

La langue est la façon dont nous interagissons, demandons de l’aide et détenons un sens dans la communauté. Nous l'utilisons pour organiser des pensées complexes et partager des idées. C'est le moyen que nous utilisons pour dire à une IA ce que nous voulons et pour juger si elle nous a compris.

Nous assistons à une recrudescence d’applications reposant sur l’IA, de l’éducation à la santé en passant par l’agriculture. Ces modèles sont formés à partir de grands volumes de données (principalement) linguistiques (langues). Ceux-ci sont appelés grands modèles linguistiques ou LLM, mais ne se trouvent que dans quelques langues du monde.

Les langues sont également porteuses de culture, de valeurs et de sagesse locale. Si l’IA ne parle pas nos langues, elle ne peut pas comprendre de manière fiable nos intentions, et nous ne pouvons pas faire confiance ou vérifier ses réponses. En bref : sans langage, l’IA ne peut pas communiquer avec nous – et nous ne pouvons pas communiquer avec elle. Construire l’IA dans nos langues est donc le seul moyen pour l’IA de fonctionner pour les gens.

Si nous limitons la façon dont la langue est modélisée, nous risquons de passer à côté de la majorité des cultures, de l’histoire et des connaissances humaines.

Pourquoi les langues africaines manquent-elles et quelles sont les conséquences pour l’IA ?

Le développement du langage est étroitement lié à l’histoire des peuples. Beaucoup de ceux qui ont connu le colonialisme et l’empire ont vu leurs propres langues marginalisées et ne pas se développer dans la même mesure que les langues coloniales. Les langues africaines ne sont pas aussi souvent enregistrées, y compris sur Internet.

Il n’y a donc pas suffisamment de textes et de paroles numérisés de haute qualité pour former et évaluer des modèles d’IA robustes. Cette rareté est le résultat de décennies de choix politiques privilégiant les langues coloniales dans les écoles, les médias et le gouvernement.

Les données linguistiques ne sont qu’une des choses qui manquent. Avons-nous des dictionnaires, des terminologies, des glossaires ? Les outils de base sont peu nombreux et de nombreux autres problèmes augmentent le coût de création d’ensembles de données. Ceux-ci incluent les claviers, les polices de caractères, les correcteurs orthographiques, les tokeniseurs (qui divisent le texte en morceaux plus petits afin qu'un modèle linguistique puisse le comprendre), les variations orthographiques (différences dans la façon dont les mots sont orthographiés selon les régions), le marquage des tons et la riche diversité dialectale.

Le résultat est une IA qui fonctionne mal et parfois de manière dangereuse : erreurs de traduction, mauvaise transcription et systèmes qui comprennent à peine les langues africaines.

Dans la pratique, cela prive de nombreux Africains de l’accès – dans leur propre langue – aux actualités mondiales, aux supports pédagogiques, aux informations sur les soins de santé et aux gains de productivité que l’IA peut apporter.

Lorsqu’une langue ne figure pas dans les données, ses locuteurs ne sont pas dans le produit, et l’IA ne peut pas être sûre, utile ou équitable pour eux. Ils finissent par ne pas disposer des outils technologiques linguistiques nécessaires pour soutenir la prestation de services. Cela marginalise des millions de personnes et accroît la fracture technologique.

Que fait votre projet à ce sujet – et comment ?

Notre objectif principal est de collecter des données vocales pour la reconnaissance automatique de la parole (ASR). L’ASR est un outil important pour les langues largement parlées. Cette technologie convertit la langue parlée en texte écrit.

La plus grande ambition de notre projet est d'explorer comment les données pour l'ASR sont collectées et quelle quantité est nécessaire pour créer des outils ASR. Nous visons à partager nos expériences dans différentes régions géographiques.

Les données que nous collectons sont de par leur conception diverses : discours spontané et lu ; dans divers domaines : conversations quotidiennes, soins de santé, inclusion financière et agriculture. Nous collectons des données auprès de personnes d’âges, de sexes et de formations diverses.

Chaque enregistrement est collecté avec un consentement éclairé, une compensation équitable et des conditions claires en matière de droits sur les données. Nous transcrivons avec des directives spécifiques à la langue et un large éventail d'autres contrôles techniques.

Au Kenya, via le Maseno Center for Applied AI, nous collectons des données vocales dans cinq langues. Nous capturons les trois principaux groupes linguistiques nilotiques (Dholuo, Maasai et Kalenjin), ainsi que le Cushitic (Somali) et le Bantu (Kikuyu).

Grâce à Data Science Nigeria, nous collectons des discours dans cinq langues largement parlées : le bambara, le haoussa, l'igbo, le pidgin nigérian et le yoruba. L'ensemble de données vise à refléter avec précision l'utilisation authentique de la langue au sein de ces communautés.

En Afrique du Sud, en collaboration avec le laboratoire Data Science for Social Impact et ses collaborateurs, nous avons enregistré sept langues sud-africaines. L'objectif est de refléter la riche diversité linguistique du pays : isiZulu, isiXhosa, Sesotho, Sepedi, Setswana, isiNdebele et Tshivenda.

Il est important de noter que ce travail ne se déroule pas de manière isolée. Nous nous appuyons sur l’élan et les idées du réseau Masakhane Research Foundation, de Lelapa AI, Mozilla Common Voice, EqualyzAI et de nombreuses autres organisations et individus qui ont été pionniers dans les modèles, données et outils linguistiques africains.

Chaque projet renforce les autres et, ensemble, ils forment un écosystème en pleine croissance engagé à rendre les langues africaines visibles et utilisables à l’ère de l’IA.

Comment peut-on mettre cela à profit ?

Les données et les modèles seront utiles pour sous-titrer les médias en langue locale ; assistants vocaux pour l'agriculture et la santé ; call-center et support dans les langues. Les données seront également archivées à des fins de préservation culturelle.

Des ensembles de données sur les langues africaines plus vastes, équilibrés et accessibles au public nous permettront de connecter les ressources textuelles et vocales. Les modèles ne seront pas seulement expérimentaux, mais seront également utiles dans les chatbots, les outils pédagogiques et la prestation de services locaux. L’opportunité est là d’aller au-delà des ensembles de données vers des écosystèmes d’outils (vérificateurs orthographiques, dictionnaires, systèmes de traduction, moteurs de synthèse) qui font des langues africaines une présence vivante dans les espaces numériques.

En bref, nous associons des discours de haute qualité, collectés de manière éthique, à grande échelle, à des modèles. L’objectif est que les gens puissent parler naturellement, être compris avec précision et accéder à l’IA dans les langues dans lesquelles ils vivent.

Quelle est la suite du projet ?

Ce projet n'a collecté des données vocales que pour certaines langues. Qu’en est-il des langues restantes ? Qu’en est-il d’autres outils comme la traduction automatique ou les vérificateurs de grammaire ?

Nous continuerons à travailler sur plusieurs langues, en veillant à créer des données et des modèles qui reflètent la manière dont les Africains utilisent leurs langues. Nous accordons la priorité à la création de modèles linguistiques plus petits, à la fois économes en énergie et précis pour le contexte africain.

Le défi est désormais l’intégration : faire en sorte que ces éléments fonctionnent ensemble afin que les langues africaines ne soient pas seulement représentées dans des démonstrations isolées, mais sur des plateformes du monde réel.

L’une des leçons de ce projet, et d’autres projets similaires, est que la collecte de données n’est que la première étape. Ce qui compte, c'est de s'assurer que les données sont comparées, réutilisables et liées aux communautés de pratique. Pour nous, la « prochaine étape » est de garantir que les critères ASR que nous construisons puissent être connectés aux autres efforts africains en cours.

Nous devons également garantir la durabilité : que les étudiants, les chercheurs et les innovateurs aient un accès continu au calcul (ressources informatiques et puissance de traitement), au matériel de formation et aux cadres de licence (comme NOODL ou Esethu). La vision à long terme est de permettre le choix : afin qu'un agriculteur, un enseignant ou une entreprise locale puisse utiliser l'IA en isiZulu, en haoussa ou en kikuyu, et pas seulement en anglais ou en français.

Si nous réussissons, l’IA intégrée aux langues africaines ne se contentera pas de rattraper son retard. Il établira de nouvelles normes pour une IA inclusive et responsable dans le monde entier.