Un laboratoire d’IA affirme que des robots soutenus par la Chine mènent des attaques de cyberespionnage. Les experts ont des questions

Au cours du week-end dernier, le laboratoire américain d'IA Anthropic a publié un rapport sur sa découverte de la « première campagne de cyberespionnage orchestrée par l'IA ».

La société affirme qu'un groupe de piratage parrainé par le gouvernement chinois a utilisé l'outil Claude AI d'Anthropic pour automatiser une partie importante d'un effort visant à voler des informations sensibles auprès d'une trentaine d'organisations.

Le rapport a attiré beaucoup d'attention. Certains, y compris des experts respectés, ont averti que les cyberattaques automatisées par l’IA représentaient l’avenir, exhortant les cyberdéfenseurs à investir maintenant avant l’attaque à venir.

Dans le même temps, de nombreux acteurs du secteur de la cybersécurité ont été déçus par les affirmations d'Anthropic, affirmant que le rôle réel joué par l'IA dans les attaques n'est pas clair.

Ce que dit Anthropic s'est produit

Les critiques ont souligné ce qu’ils considèrent comme un manque de détails dans le rapport, ce qui signifie que nous devons faire un certain nombre de conjectures pour tenter de reconstituer ce qui aurait pu se passer. Dans cet esprit, il semble que les pirates aient construit un cadre permettant de mener des campagnes de cyber-intrusion de manière essentiellement automatique.

Le gros travail a été réalisé par l’agent de codage Claude Code AI d’Anthropic. Claude Code est conçu pour automatiser les tâches de programmation informatique, mais il peut également être utilisé pour automatiser d'autres activités informatiques.

Claude Code dispose de garde-corps de sécurité intégrés pour éviter tout dommage. Par exemple, je lui ai demandé tout à l'heure de m'écrire un programme que je pourrais utiliser pour mener des activités de piratage. Celui-ci a carrément refusé.

Cependant, comme nous le savons depuis les premiers jours de ChatGPT, une façon de contourner les garde-fous des systèmes d’IA est de les inciter à s’engager dans un jeu de rôle.

Anthropic rapporte que c'est ce qu'ont fait ces pirates. Ils ont trompé Claude Code en lui faisant croire qu'il aidait des pirates informatiques autorisés à tester la qualité des défenses d'un système.

Détails manquants

Les informations publiées par Anthropic manquent des détails précis que les meilleurs rapports d’enquête sur les cyberincidents ont tendance à inclure.

Les principaux d’entre eux sont ce que l’on appelle les indicateurs de compromission (ou IoC). Lorsque les enquêteurs publient un rapport sur une cyber-intrusion, ils incluent généralement des preuves concrètes que d’autres cyber-défenseurs peuvent utiliser pour rechercher des signes de la même attaque.

Chaque campagne d'attaque peut utiliser des outils d'attaque spécifiques ou être menée à partir d'ordinateurs spécifiques sous le contrôle de l'attaquant. Chacun de ces indicateurs ferait partie de la signature de la cyber-intrusion.

Quelqu'un d'autre qui est attaqué en utilisant les mêmes outils, provenant des mêmes ordinateurs attaquants, peut en déduire qu'il a également été victime de cette même campagne.

Par exemple, l’Agence américaine de cybersécurité et de sécurité des infrastructures s’est récemment associée à des agences gouvernementales de cybersécurité du monde entier pour publier des informations sur le cyberespionnage en cours parrainé par l’État chinois, y compris des indicateurs détaillés de compromission.

Malheureusement, le rapport d'Anthropic ne comprend aucun indicateur de ce type. En conséquence, les défenseurs ne sont pas en mesure de déterminer s’ils pourraient également avoir été victimes de cette campagne de piratage basée sur l’IA.

Sans surprise – et avec un succès limité

Une autre raison pour laquelle beaucoup ont été déçus par les affirmations d'Anthropic est que, à première vue et en l'absence de détails concrets, elles ne sont pas particulièrement surprenantes.

Claude Code est largement utilisé par de nombreux programmeurs car il les aide à être plus productifs.

Bien qu'elles ne soient pas exactement identiques aux tâches de programmation, de nombreuses tâches courantes effectuées lors d'une cyber-intrusion sont suffisamment similaires aux tâches de programmation pour que Claude Code devrait également être capable de les exécuter.

Une dernière raison de se méfier des affirmations d'Anthropic est qu'elles suggèrent que les attaquants auraient pu amener Claude Code à effectuer ces tâches de manière plus fiable qu'il ne le fait habituellement.

L’IA générative peut réaliser de merveilleux exploits. Mais faire en sorte que des systèmes tels que ChatGPT ou Claude Code le fassent de manière fiable reste un défi majeur.

Selon les mots mémorables d'un commentateur, ces outils répondent trop souvent à des demandes difficiles par des « baisers de cul, des blocages et des trips à l'acide ». En termes plus simples, les outils d’IA sont sujets à la flagornerie, au refus répété d’effectuer des tâches difficiles et aux hallucinations.

En effet, le rapport d'Anthropic note que Claude Code a fréquemment menti aux attaquants, prétendant qu'il avait mené à bien une tâche alors même qu'il ne l'avait pas fait. Il s’agit d’un cas classique d’hallucination de l’IA.

Cela explique peut-être le faible taux de réussite de l'attaque : selon les propres rapports d'Anthropic, si environ 30 organisations ont été ciblées, les pirates n'ont réussi qu'à en vaincre quelques-unes.

Qu’est-ce que cela signifie pour l’avenir de la cybersécurité et de l’IA ?

Quels que soient les détails de cette campagne particulière, les cyberattaques basées sur l’IA sont là pour rester.

Même si l’on prétend que le piratage actuel basé sur l’IA est boiteux, il serait insensé pour les cyberdéfenseurs de supposer que cela va rester ainsi.

À tout le moins, le rapport d'Anthropic est un rappel opportun pour les organisations d'investir dans la cybersécurité. Ceux qui ne le font pas risquent d’être confrontés à un avenir dans lequel leurs secrets seront volés ou leurs opérations perturbées par des agents autonomes d’IA.