L'IA générative trompe les scientifiques avec des données artificielles, rapprochant l'analyse automatisée des données

Deux images au microscope d’une surface matérielle. L’image de gauche a été générée par la nouvelle IA des chercheurs, et l’image de droite a été prise par un microscope. Huang a noté que l’IA est « si bonne qu’elle me trompe, moi et mes collègues ». Crédit : Grainger College of Engineering de l’Université de l’Illinois à Urbana-Champaign

La même technologie d’intelligence artificielle utilisée pour imiter l’art humain peut désormais synthétiser des données scientifiques artificielles, faisant progresser les efforts vers une analyse de données entièrement automatisée.

Des chercheurs de l’Université de l’Illinois à Urbana-Champaign ont développé une IA qui génère des données artificielles à partir d’expériences de microscopie couramment utilisées pour caractériser les structures matérielles au niveau atomique. S’appuyant sur la technologie sous-jacente aux générateurs d’art, l’IA permet aux chercheurs d’incorporer le bruit de fond et les imperfections expérimentales dans les données générées, permettant de détecter les caractéristiques matérielles beaucoup plus rapidement et plus efficacement qu’auparavant.

L’étude, « Tirer parti des réseaux antagonistes génératifs pour créer des images de microscopie électronique à transmission à balayage réalistes », a été publiée dans la revue npj Matériaux informatiques.

« Les IA génératives prennent des informations et génèrent de nouvelles choses qui n’existaient pas auparavant dans le monde, et maintenant nous en avons profité pour l’analyse automatisée des données », a déclaré Pinshane Huang, professeur de science des matériaux à l’U. of I. ingénierie et co-responsable du projet. « Ce qui est utilisé pour faire des peintures de lamas dans le style de Monet sur Internet peut maintenant rendre les données scientifiques si bonnes qu’elles me trompent, moi et mes collègues. »

D’autres formes d’IA et d’apprentissage automatique sont couramment utilisées en science des matériaux pour faciliter l’analyse des données, mais elles nécessitent une intervention humaine fréquente et chronophage. Rendre ces routines d’analyse plus efficaces nécessite un grand ensemble de données étiquetées pour montrer au programme ce qu’il faut rechercher. De plus, l’ensemble de données doit tenir compte d’un large éventail de bruits de fond et d’imperfections expérimentales pour être efficace, des effets difficiles à modéliser.

Étant donné qu’il est impossible de collecter et d’étiqueter un ensemble de données aussi vaste à l’aide d’un vrai microscope, Huang a travaillé avec le professeur de physique de l’Université de l’Ile Bryan Clark pour développer une IA générative qui pourrait créer un grand ensemble de données d’entraînement artificielles à partir d’un ensemble relativement petit de données réelles. , données étiquetées. Pour y parvenir, les chercheurs ont utilisé un réseau contradictoire génératif de cycle, ou CycleGAN.

« Vous pouvez considérer un CycleGAN comme une compétition entre deux entités », a déclaré Clark. « Il y a un » générateur « dont le travail consiste à imiter un ensemble de données fourni, et il y a un » discriminateur « dont le travail consiste à repérer les différences entre le générateur et les données réelles. Ils essaient à tour de rôle de se déjouer, s’améliorant en fonction de ce que l’autre était capable de faire. En fin de compte, le générateur peut produire des données artificielles pratiquement impossibles à distinguer des données réelles.

En fournissant au CycleGAN un petit échantillon d’images de microscopie réelles, l’IA a appris à générer des images qui ont été utilisées pour former la routine d’analyse. Il est désormais capable de reconnaître un large éventail de caractéristiques structurelles malgré le bruit de fond et les imperfections systématiques.

« La partie remarquable de cela est que nous n’avons jamais eu à dire à l’IA ce que sont des choses comme le bruit de fond et les imperfections comme l’aberration dans le microscope », a déclaré Clark. « Cela signifie que même s’il y a quelque chose auquel nous n’avions pas pensé, le CycleGAN peut l’apprendre et fonctionner avec. »

Le groupe de recherche de Huang a intégré le CycleGAN dans ses expériences pour détecter les défauts dans les semi-conducteurs bidimensionnels, une classe de matériaux prometteuse pour les applications en électronique et en optique mais difficile à caractériser sans l’aide de l’IA. Cependant, elle a observé que la méthode a une portée beaucoup plus large.

« Le rêve est d’avoir un jour un microscope » autonome « , et le plus grand obstacle était de comprendre comment traiter les données », a-t-elle déclaré. « Notre travail comble cette lacune. Nous montrons comment vous pouvez apprendre à un microscope comment trouver des choses intéressantes sans avoir à savoir ce que vous cherchez. »