Une technique contradictoire ciblant la vulnérabilité dans KataGo permet à un programme de qualité inférieure de gagner
Une équipe de chercheurs composée de membres du MIT, de l’UC Berkely et de FAR AI a créé un programme informatique pour cibler les vulnérabilités du programme KataGo qui lui permettent de battre le système basé sur l’IA. Ils ont publié un article décrivant leurs efforts sur le serveur de préimpression arXiv.
En 2016, un programme informatique créé par le projet DeepMind a réussi à battre pour la première fois les champions humains de Go. Le programme a utilisé un réseau neuronal d’apprentissage en profondeur pour apprendre comment le jeu fonctionne, puis comment jouer à des niveaux de plus en plus élevés en jouant simplement contre lui-même.
Plus récemment, un programme open source similaire appelé KataGo a été rendu public. Il peut également battre les meilleurs joueurs humains. Mais, comme cela a été noté dans d’autres études, les programmes basés sur l’apprentissage en profondeur ont tendance à avoir une vulnérabilité majeure : ils ne sont aussi bons que les données sur lesquelles ils sont formés. Cela a conduit à des lacunes dans l’apprentissage, qui à leur tour ont conduit à des vulnérabilités dans les compétences. Dans ce nouvel effort, les chercheurs ont recherché et trouvé une vulnérabilité dans KataGo.
Parce que KataGo est formé sur des manières « normales » de jouer au Go, il peut rencontrer des problèmes avec des adversaires qui jouent de manière apparemment étrange. Les chercheurs ont noté qu’une manière contradictoire (étrange) de jouer au go pourrait impliquer de travailler pour revendiquer un petit coin du plateau. Adopter cette approche fait croire à KataGo qu’il a gagné le jeu prématurément car il contrôle tout le reste du plateau. Et l’une des règles du Go est que si un joueur passe et que l’autre passe aussi, alors la partie se termine et les deux camps comptent leurs points. Parce que l’adversaire obtient tous les points pour son petit territoire d’angle, alors que KataGo n’obtient pas de points pour le territoire non sécurisé qui héberge des pierres adverses, l’adversaire compte plus de points et gagne.
Les chercheurs notent que le stratagème ne fonctionne qu’avec KataGo ; l’utiliser contre d’autres humains entraînera une défaite rapide car ils verront intuitivement ce qui se passe. Ils notent également que la raison pour laquelle ils ont écrit leur programme contradictoire était de montrer que les systèmes d’IA souffrent toujours de vulnérabilités importantes, ce qui signifie qu’il faut faire preuve de beaucoup de prudence lorsqu’ils sont utilisés dans des applications critiques, telles que les voitures autonomes ou la numérisation. images pour le cancer.