Les géants de la technologie avertissent la fenêtre pour surveiller le raisonnement de l'IA se ferme, demandez l'action

L'intelligence artificielle progresse à une vitesse vertigineuse. Comme de nombreuses nouvelles technologies, il offre des avantages importants mais présente également des risques de sécurité. Reconnaissant les dangers potentiels, les principaux chercheurs de Google Deepmind, Openai, Meta, Anthropic et une coalition d'entreprises et de groupes à but non lucratif se sont réunis pour appeler plus à faire pour surveiller comment les systèmes d'IA «pensent».

Dans un article conjoint publié plus tôt cette semaine et approuvé par des personnalités de l'industrie, notamment Geoffrey Hinton (largement considérée comme le « parrain de l'IA ») et le co-fondateur d'Openai Ilya Sutskever, les scientifiques soutiennent qu'une brève fenêtre pour surveiller le raisonnement de l'IA pourrait bientôt fermer.

Amélioration de la surveillance de l'IA

Ils appellent à plus de surveillance des chaînes de pensées (COTS), une technique qui permet aux modèles d'IA de résoudre des défis complexes en les décomposant en étapes plus petites, tout comme les humains fonctionnent à travers des tâches complexes, comme un problème mathématique délicat.

Les COTS sont des caractéristiques clés des modèles d'IA avancés, y compris les modèles d'apprentissage en profondeur et d'apprentissage des langues (LLM). Cependant, à mesure que les systèmes d'IA deviennent plus avancés, l'interprétation de leurs processus décisionnels deviendra encore plus difficile. C'est une préoccupation car les méthodes de surveillance de l'IA existantes sont imparfaites et peuvent manquer une mauvaise conduite.

Dans l'article, les scientifiques ont souligné comment la surveillance du COT a déjà prouvé sa valeur en détectant des exemples de mauvais comportements de l'IA, comme lorsque les modèles agissent de manière mal alignée « en exploitant les défauts dans leurs fonctions de récompense pendant la formation » ou « manipulant les données pour atteindre un résultat ».

Les scientifiques croient qu'une meilleure surveillance des COTS pourrait être un moyen précieux de garder les agents de l'IA sous contrôle à mesure qu'ils deviennent plus capables.

« La chaîne de surveillance de la pensée présente un ajout précieux aux mesures de sécurité pour l'IA frontalière, offrant un aperçu rare de la façon dont les agents de l'IA prennent des décisions », ont déclaré les chercheurs de leur article. « Pourtant, rien ne garantit que le degré de visibilité actuel persistera. Nous encourageons la communauté de recherche et les développeurs d'IA frontaliers à faire le meilleur usage de la surveillance du COT et à étudier comment il peut être préservé. »

Une demande clé des chercheurs est que les développeurs d'IA étudient ce qui rend les COTS surveille. En d'autres termes, comment pouvons-nous mieux comprendre comment les modèles d'IA arrivent à leurs réponses? Ils veulent également que les développeurs étudient comment la surveillance du COT pourrait être incluse comme mesure de sécurité.

Le papier conjoint marque un rare moment d'unité entre les géants de la technologie farouchement compétitifs, soulignant à quel point ils sont préoccupés par la sécurité. À mesure que les systèmes d'IA deviennent plus puissants et intégrés dans la société, garantissant que leur sécurité n'a jamais été aussi importante ou urgente.

Écrit pour vous par notre auteur Paul Arnold, édité par Gaby Clark, et vérifié et examiné par Andrew Zinin – cet article est le résultat d'un travail humain soigneux. Nous comptons sur des lecteurs comme vous pour garder le journalisme scientifique indépendant en vie. Si ce rapport vous importe, veuillez considérer un don (surtout mensuel). Vous obtiendrez un sans publicité compte comme un remerciement.