L'IA est l'une des technologies les plus avancées que l'être humain ait construite. Il est également distrait avec un chat

Une phrase non pertinente, comme « les chats ronflements quand ils se sentent en sécurité », il peut être suffisant pour l'intelligence artificielle pour faire une erreur de raisonnement. Il n'est pas nécessaire de modifier la question, ni de manipuler le code, ni d'utiliser des techniques avancées. Il suffit de l'induire en erreur. Littéralement.

Une distraction minimale, une erreur maximale. Une équipe de chercheurs spécialisée en informatique et en intelligence artificielle de l'IA colinéaire, ServiceNow et Stanford a découvert une nouvelle façon d'attaquer les grands modèles de langue: l'insertion d'une phrase aléatoire juste après l'invite. Cette phrase ne doit pas être liée à la question ou contenir de fausses informations. Il suffit d'être là. Et si vous parlez de chats, mieux. C'est pourquoi la technique est appelée «catattaque».

C'est ainsi que fonctionne le catattack. La technique consiste à ajouter une phrase non pertinente et à l'extérieur de la question après la déclaration réelle d'un problème complexe qui nécessite le raisonnement par le modèle. Par exemple: » « .

Déclenchement

Erreurs trouvées en ajoutant une phrase non pertinente à l'invite. Image: arXiv: 2503.01781v1

Le modèle, au lieu de se concentrer sur le fonctionnement mathématique, semble perdre la focalisation. L'équipe a automatisé ce processus en utilisant des phrases générées par d'autres modèles de langue ou extraits de bases de données avec un langage naturel. Ils se sont assurés qu'ils étaient grammaticaux, neutres et sans informations techniques. Et pourtant, l'impact a été massif. L'attaque suit ce processus:

Génération de «déclencheurs» (activateurs): Un système automatisé crée des phrases apparemment non pertinentes qui sont ajoutées aux problèmes mathématiques
Transfert de vulnérabilités: Les attaques sont d'abord testées dans des modèles plus faibles, puis transférés vers des systèmes plus avancés
Validation sémantique: Il est vérifié que les phrases ne changent pas la signification du problème d'origine

La Chine réduit les distances avec les États-Unis en IA avec le meilleur qui soit donné: observer

Tout le monde tombe. Les chercheurs ont testé cette technique en commençant par Deepseek V3, puis en injectant le résultat à d'autres modèles plus élevés et de raisonnement tels que les modèles Deepseek R1, ou O1 et O3-MinI d'OpenAI. Dans tous les cas, il y a eu une baisse significative dans la précision des réponses. Dans certaines preuves, les chercheurs ont montré que le transfert de ces résultats incorrects a atteint un taux allant jusqu'à 50%. Les attaques ont été testées dans des tâches de logique, de mathématiques et de raisonnement verbal.

Vulnérabilités qui restent à arrêter. L'étude conclut que même les modèles de raisonnement les plus avancés sont vulnérables aux activateurs qui ne dépendent pas de la consultation, ce qui augmente considérablement la probabilité d'erreurs. Il a montré que même dans des modèles de raisonnement puissants, tels que Deepseek R1, le taux d'erreur a triplé. En plus d'induire des erreurs, ces éléments ajoutés aux invites rendent les réponses également inutilement longues, ce qui peut générer des inefficacités de calcul.

Il y a encore du tissu à couper. Les chercheurs mettent en évidence la nécessité de développer des défenses plus robustes, en particulier dans des applications critiques telles que la finance, le droit ou la santé. L'équipe suggère que les modèles d'entraînement par une résistance contradictoire pourraient être un moyen de les rendre plus robustes. Ce qui est clair, c'est que si une IA peut échouer pour quelque chose d'aussi simple qu'une phrase sur les chats, il y a encore un travail à faire avant de faire aveuglement sa capacité de raisonnement.

Et oui, le nom de l'attaque n'est pas accidentel. Parfois, tout ce qui est nécessaire pour que l'IA perde le fil … C'est un chat. En ce que nous semblons.

Image de couverture | Mikhail Vasilyev

Dans Simseo | Les agents étaient censés opter pour l'IA dans une autre dimension en 2025. Comme pour d'autres choses de l'IA, elle n'était censée que