Le Chili a demandé à Chatgpt de leur culture. La réponse était si lâche que l'Amérique latine s'est jointe pour créer Latam-GPT

L’observation du développement de l’IA génératrice est la plus curieuse. Aux États-Unis, ils sont une grande technologie et des startups telles qu’Openai, qui ont marqué le rythme. En Chine, les entreprises développent également leurs modèles, mais le gouvernement a un intérêt particulier à pousser cette technologie technologique, bien sûr, mais aussi sur le social et les médecins. Et maintenant, l’Amérique latine s’est jointe pour créer son propre chatppt.

Il s’appellera LATAM-GPT et la motivation de créer ce modèle est curieuse: un centre chilien n’a pas convaincu une réponse de Chatgpt sur la culture latino-américaine.

La question. « Décrivez la culture latino-américaine en 500 caractères. » C’était, comme nous l’avons lu à la BBC, la demande de certains chercheurs du National Artificial Intelligence Center -cenia – du Chili au Chatgpt. Sa réponse était la suivante:

«La culture latino-américaine est un amalgame dynamique de racines indigènes, d’influences africaines et de patrimoine européen. Elle se caractérise par sa riche diversité dans la musique, la danse et la gastronomie, reflétée dans des festivals tels que le carnaval et la foire des fleurs. Son art, du murmure à la littérature, montre une connexion profonde avec l’histoire et l’identité locale. La culture chaude, le sens de la communauté et la célébration de la communauté. «

Je dois dire que je viens de le demander et que la réponse est différente, mais pivotez sur les mêmes points, tels que la fusion des héritages indigènes, africains et européens, le goût de la musique et de la danse, une gastronomie colorée et des traditions telles que le carnaval pour donner naissance à une mosaïque culturelle colorée.

Latam-gpt. Cette réponse n’a pas satisfait les chercheurs de Cenia, qui considéraient que, bien qu’il s’agisse d’un LLM de haute qualité, « leur compréhension du contexte latino-américain pourrait être enrichie et perfectionné ». Allez, ils sont convaincus que la réponse, bien que correcte dans les traits larges, doit être beaucoup qualifiée pour mieux refléter les particularités de la culture de chaque pays d’Amérique latine parce que Chatgpt a également donné une réponse … généraliste.

Et cette réponse pour l’utilisateur de la région sera LATAM-GPT. L’intention est qu’il s’agit d’un modèle de langue et pour l’Amérique latine et les Caraïbes. Le désir est qu’il aborde les problèmes communs des modèles de langue lors de l’interprétation des idiomes, des références culturelles et des expressions typiques du contexte latino-américain. Álvaro Soto, directeur de Cenia, déclare que les modèles américains hallucinent parce que les données latino-américaines avec lesquelles ils ont été formées sont très rares.

« Nous ne cherchons pas à rivaliser avec Openai ou l’un des géants. Nous voulons un propre modèle d’Amérique latine et des Caraïbes, avec les exigences culturelles et les défis qui implique » – Cenia

Objectifs. C’est triple. D’une part, ce que nous venons de mentionner: qu’il a un contexte plus important lors de la résolution des problèmes liés à la culture de chacun des pays d’Amérique latine. De l’autre, c’est ouvert et public, permettant à chaque développeur d’adapter les applications aux besoins locaux dans des domaines tels que l’éducation, la politique, l’économie ou l’environnement.

Enfin, peut-être le plus important pour quelque chose que les pays de la région recherchent: arrêter en fonction des modèles et technologies étrangers. Le Mexique, par exemple, a mis sur la table l’intention de réaliser différents projets dans un grand parapluie appelé Plan du Mexique qui vise à améliorer la souveraineté de la nation dans plusieurs sujets, étant technologique – avec sa propre industrie de semi-conducteurs ou de véhicules électriques – l’une de ses jambes.

Des millions de personnes sont à nouveau intéressées par le chatppt. Le problème est qu'il l'a réalisé en violant le droit d'auteur

Financement. Avec Latam-GPT, il cherche également à promouvoir l’innovation technologique de la région grâce à un outil qui peut aider les autres à chercher à développer leur potentiel. Mais bien sûr, effectuer quelque chose comme ça nécessite de l’argent, et c’est quelque chose qui ne restera pas uniquement à Cenia. Le Chili a postulé en tant que chef du projet, mais des pays comme le Mexique, l’Argentine, la Colombie, le Pérou, l’Uruguay, le Costa Rica ou l’Équateur n’ont pas mis de temps à se joindre. Il y a aussi des institutions espagnoles et américaines sur ce navire.

Il bénéficie d’un soutien financier des associations et des établissements universitaires de ces pays, mais il existe également un soutien gouvernemental pour développer cette intelligence artificielle.

Plusieurs pays sont immergés dans Latam-GPT

Ressources. Pour la formation, les chercheurs utiliseront l’infrastructure de l’Université de Tarapacá, au Chili. Il utilisera un super-tank pour former le modèle avec plus de 8 To de données collectées auprès des bibliothèques publiques et privées. Cette formation prendra environ 40 jours et il est prévu que, pour l’été de 2025, Latam-GPT soit accessible. L’investissement dans les infrastructures sera d’environ 10 millions de dollars.

Maintenant, l’un des problèmes peut être la consommation du centre de formation. Nous avons déjà vu en Espagne que tout le monde n’a pas l’air bien à l’installation de centres de données pour former l’IA en raison d’une consommation élevée d’eau et d’énergie, mais de Cenia, ils exposent cette consommation dans la première des deux étapes seront de 135 kWh.

L’Université de Tarapacá est située à Arica, dans le nord du Chili, où il y a une grande matrice d’énergie composée d’énergies renouvelables et l’idée est de les «jeter» pour fournir de l’électricité. De plus, de l’agence, ils commentent que « le système de refroidissement – des serveurs – ne générera pas de consommation d’eau en raison de la disponibilité d’une énergie bon marché et abondante en arica. Les émissions de co₂ associées à la formation seront de 0,96 tonnes. »

Nécessaire? Ce serait, si les comptes sont corrects, que la formation de ce LLM sera plus écologique que celle des modèles Google ou OpenAI, mais il y a des défis à venir. Il y a à voir avec la protection des données qu’ils utilisent pour former le modèle. Les chercheurs affirment que la principale politique pour l’abri de la propriété intellectuelle sera la transparence, avec des sources ouvertes conformes aux lois sur le droit d’auteur et, en même temps, effectuer des automatismes d’anonymat des données personnelles.

D’un autre côté, il y a ceux qui demandent que tout cela … pour quoi. Ulysse Mejías, d’origine mexicaine, est professeur à l’Université d’État de New York et a déclaré à BBC Mundo que, bien que ce soit la proposition la plus grande, ambitieuse et la mieux financée qu’il ait vue en Amérique latine, il ne fait pas confiance aux projets qui essaient de se différencier de ceux des États-Unis et de la Chine sans remettre en question la prémisse fondamentale de ces modèles.

« Le projet LATAM-GPT essaie-t-il de fournir une nouvelle réponse à la question de ce à quoi sert le Genai? Ou est-ce que elle laisse sans remettre en question l’hypothèse que l’intelligence artificielle générale sert essentiellement à réduire les coûts de main-d’œuvre et à maximiser les bénéfices commerciaux? »

En pleine guerre tarifaire avec les États-Unis, le Mexique a eu une idée: fabriquer ses propres voitures électriques "bon marché"

Nvidia gagne toujours. Autant que cela puisse être, et malgré les problèmes et les doutes de gens comme les Mejías, c’est une question de mois que nous voyons, si tout se passe comme prévu, ce latam-gpt. Et ce qui est clair, c’est que, autant qu’ils veulent changer les choses ou s’arrêter en fonction des technologies étrangères, il y a encore un seul nom en Occident (en Chine, nous savons déjà que Huawei est dans l’équation) Protagoniste en ce qui concerne l’intelligence artificielle: Nvidia.

La raison en est que le centre de données sera équipé de 12 nœuds avec huit GPU Nvidia H200 chacun. C’est ce qu’ils ont calculé qu’il sera nécessaire de former le modèle avec 50 milliards de paramètres, comparable à GPT-3.5, et ils ont déjà avancé qu’il sera une première version qui sera renforcée avec « des améliorations continues à mesure que davantage d’institutions sont ajoutées et que de nouvelles données seront intégrées pour perfectionner le modèle ».

Nous devrons avoir un œil sur Latam-GPT, mais pas seulement pour cette première version, mais pour son évolution. Comment l’adaptation est ce qui marquera le succès ou l’échec du modèle.

Dans Simseo | Les États-Unis et l’Europe sont confrontés à une inévitabilité: tôt ou tard la Chine sera le leader mondial des puces