La recherche maintient l'IA compatible avec les appareils intelligents

La nouvelle technique offre plus de contrôle sur les modèles de grandes langues

Imaginez développer un bouton de contrôle plus fin pour les applications d’intelligence artificielle (AI) comme Google Gemini et Openai Chatgpt.

Mikhail Belkin, professeur au Halıcıoğlu Data Science Institute (HDSI) de l’UC San Diego – partie de l’École d’informatique, d’information et de sciences des données (SCID) – a travaillé avec une équipe qui a fait exactement cela. Plus précisément, les chercheurs ont découvert une méthode qui permet une direction et une modification plus précises des modèles de grands langues (LLM) – les puissants systèmes d’IA derrière des outils comme Gemini et Chatgpt. Belkin a déclaré que cette percée pourrait conduire à une IA plus sûre, plus fiable et plus adaptable.

La recherche repose sur des travaux récents qui ont été publiés dans Science et Actes de l’Académie nationale des sciences.

« Actuellement, bien que les LLM démontrent des capacités impressionnantes dans la génération de texte, la traduction des langues et la réponse aux questions, leur comportement peut parfois être imprévisible ou même nocif », a déclaré Belkin. « Ils pourraient produire un contenu biaisé, répartir la désinformation ou présenter un langage toxique. »

L’équipe de recherche multi-institutionnelle comprend Belkin, Daniel Beaglehole (département d’informatique et d’ingénierie de l’UC San Diego Jacobs School of Engineering), Adityanarayanan Radhakrishnan (Broad Institute of MIT et Harvard Seas) et Enric Boix-Adserà (MIT Mathematics et Harvard CMSA).

Belkin a déclaré qu’ils avaient relevé ce défi en développant une nouvelle méthode d’apprentissage « non linéaire ». Cette technique leur a permis d’identifier et de manipuler des caractéristiques sous-jacentes importantes du réseau complexe de LLM.

Considérez-le comme comprendre les ingrédients individuels dans un gâteau plutôt que comme le produit final. En comprenant ces composants principaux, les chercheurs ont ensuite guidé la sortie de l’application AI dans des directions plus souhaitables.

« C’est comme si nous étions une compréhension plus profonde du processus de réflexion interne de l’application AI », a expliqué Belkin. « Cela nous permet non seulement de prédire quel type de sorties que le modèle générera, mais aussi de l’influencer activement vers des réponses plus utiles et moins nocives. »

Leur approche a consisté à analyser les activations internes du LLM sur différentes couches. Cela leur a permis de déterminer les fonctionnalités responsables de concepts spécifiques, tels que la toxicité ou la précision factuelle. Une fois ces caractéristiques identifiées, les chercheurs les ont ajustés pour encourager ou décourager certains comportements.

L’équipe a démontré l’efficacité de sa méthode à travers une gamme de tâches, notamment la détection et l’atténuation des hallucinations (cas où l’IA génère de fausses informations), la nocive et la toxicité. Ils ont également montré que leur technique pouvait diriger les LLM pour mieux comprendre les concepts dans diverses langues, notamment l’anglais shakespearien et la langue poétique.

« L’un des avantages importants de cette nouvelle méthode est son potentiel pour rendre les LLM plus efficaces et plus rentables », a déclaré Belkin. « En nous concentrant sur les caractéristiques internes cruciales, nous pensons que nous pouvons affiner ces modèles puissants en utilisant moins de données et de ressources informatiques – cela pourrait, à son tour, rendre la technologie AI avancée plus accessible. »

Ce type de recherche a également le potentiel d’ouverture des portes pour créer des applications IA plus sur mesure. Imaginez un assistant d’IA spécialement conçu pour fournir des informations médicales précises ou un outil d’écriture créatif qui évite les clichés et les stéréotypes nocifs. La capacité de diriger précisément les LLM rapprochent ces possibilités de la réalité.

Les chercheurs ont rendu leur code accessible au public, en passant par l’exploration et le développement plus approfondis dans ce domaine critique de la sécurité et du contrôle de l’IA.

« À mesure que les LLM sont de plus en plus intégrées dans notre vie quotidienne, être capable de comprendre et de guider leur comportement est primordial », a déclaré Rajesh Gupta, qui est le doyen intérimaire de SCIDS, le directeur fondateur du HDSI et professeur distingué du département d’informatique et d’ingénierie de l’UC San Diego Jacobs School of Engineering.

« Cette nouvelle recherche du professeur Belkin et de l’équipe représente une étape importante vers la construction d’une intelligence artificielle plus fiable, digne de confiance et bénéfique pour tout le monde. »