Une technique contradictoire ciblant la vulnérabilité dans KataGo permet à un programme de qualité inférieure de gagner

arXiv (2022). DOI : 10.48550/arxiv.2211.00241″ width= »632″ height= »295″>

(À gauche) L’adversaire joue en tant que noir ; (à droite) L’adversaire joue en blanc. La politique contradictoire bat la victime de KataGo en jouant une stratégie contre-intuitive : jalonner un territoire minoritaire dans le coin, permettre à KataGo de jalonner le complément et placer des pierres faibles dans le pieu de KataGo. KataGo prédit une probabilité de victoire élevée pour lui-même et, d’une certaine manière, c’est vrai – il serait simple de capturer la plupart des pierres de l’adversaire dans l’enjeu de KataGo, remportant une victoire décisive. Cependant, KataGo joue un mouvement de passe avant d’avoir fini de sécuriser son territoire, permettant à l’adversaire de passer à son tour et de mettre fin à la partie. Cela se traduit par une victoire pour l’adversaire selon l’ensemble de règles standard pour l’ordinateur Go, Tromp-Taylor (Tromp, 2014), car l’adversaire obtient des points pour son territoire d’angle (dépourvu de pierres victimes) alors que la victime ne reçoit pas de points pour son territoire non sécurisé. territoire à cause de la présence des pierres de l’adversaire. Ces jeux sont sélectionnés au hasard à partir d’une attaque contre Latest, le réseau politique le plus puissant, jouant sans recherche. Le crédit: arXiv (2022). DOI : 10.48550/arxiv.2211.00241

Une équipe de chercheurs composée de membres du MIT, de l’UC Berkely et de FAR AI a créé un programme informatique pour cibler les vulnérabilités du programme KataGo qui lui permettent de battre le système basé sur l’IA. Ils ont publié un article décrivant leurs efforts sur le serveur de préimpression arXiv.

En 2016, un programme informatique créé par le projet DeepMind a réussi à battre pour la première fois les champions humains de Go. Le programme a utilisé un réseau neuronal d’apprentissage en profondeur pour apprendre comment le jeu fonctionne, puis comment jouer à des niveaux de plus en plus élevés en jouant simplement contre lui-même.

Plus récemment, un programme open source similaire appelé KataGo a été rendu public. Il peut également battre les meilleurs joueurs humains. Mais, comme cela a été noté dans d’autres études, les programmes basés sur l’apprentissage en profondeur ont tendance à avoir une vulnérabilité majeure : ils ne sont aussi bons que les données sur lesquelles ils sont formés. Cela a conduit à des lacunes dans l’apprentissage, qui à leur tour ont conduit à des vulnérabilités dans les compétences. Dans ce nouvel effort, les chercheurs ont recherché et trouvé une vulnérabilité dans KataGo.

Parce que KataGo est formé sur des manières « normales » de jouer au Go, il peut rencontrer des problèmes avec des adversaires qui jouent de manière apparemment étrange. Les chercheurs ont noté qu’une manière contradictoire (étrange) de jouer au go pourrait impliquer de travailler pour revendiquer un petit coin du plateau. Adopter cette approche fait croire à KataGo qu’il a gagné le jeu prématurément car il contrôle tout le reste du plateau. Et l’une des règles du Go est que si un joueur passe et que l’autre passe aussi, alors la partie se termine et les deux camps comptent leurs points. Parce que l’adversaire obtient tous les points pour son petit territoire d’angle, alors que KataGo n’obtient pas de points pour le territoire non sécurisé qui héberge des pierres adverses, l’adversaire compte plus de points et gagne.

Les chercheurs notent que le stratagème ne fonctionne qu’avec KataGo ; l’utiliser contre d’autres humains entraînera une défaite rapide car ils verront intuitivement ce qui se passe. Ils notent également que la raison pour laquelle ils ont écrit leur programme contradictoire était de montrer que les systèmes d’IA souffrent toujours de vulnérabilités importantes, ce qui signifie qu’il faut faire preuve de beaucoup de prudence lorsqu’ils sont utilisés dans des applications critiques, telles que les voitures autonomes ou la numérisation. images pour le cancer.