Un modèle d'apprentissage par renforcement en profondeur qui permet aux agents d'IA de suivre les panaches d'odeurs

Un modèle d’apprentissage par renforcement en profondeur qui permet aux agents d’IA de suivre les panaches d’odeurs

Modules de comportement tels que « montée au vent », « vent de travers » et « Demi-tour » vus dans des études précédentes sur les insectes volants, sont également récapitulés par des agents artificiels formés à l’apprentissage par renforcement en profondeur qui suivent des panaches d’odeurs simulés. Crédit : Singh et al

Pendant longtemps, les scientifiques et les ingénieurs se sont inspirés des incroyables capacités des animaux et ont cherché à les rétroconcevoir ou à les reproduire dans des robots et des agents d’intelligence artificielle (IA). L’un de ces comportements est le suivi du panache d’odeurs, qui est la capacité de certains animaux, en particulier les insectes, à se concentrer sur la source d’odeurs spécifiques d’intérêt (par exemple, la nourriture ou les compagnons), souvent sur de longues distances.

Une nouvelle étude menée par des chercheurs de l’Université de Washington et de l’Université du Nevada, Reno a adopté une approche innovante utilisant des réseaux de neurones artificiels (ANN) pour comprendre cette capacité remarquable des insectes volants. Leurs travaux, récemment publiés dans Intelligence des machines naturellesillustre comment l’intelligence artificielle génère de nouvelles connaissances scientifiques révolutionnaires.

« Nous étions motivés pour étudier un comportement biologique complexe, le suivi des panaches d’odeurs, que les insectes volants (et d’autres animaux) utilisent pour trouver de la nourriture ou des partenaires, » Satpreet H. Singh, l’auteur principal de l’étude, a déclaré à Tech Xplore. « Les biologistes ont étudié expérimentalement de nombreux aspects du suivi du panache d’insectes en détail, car il s’agit d’un comportement critique pour la survie et la reproduction des insectes.  »

Bien que le suivi du panache soit une capacité biologique cruciale, c’est aussi un exemple remarquable d’intelligence biologique, car il implique l’intégration de souvenirs sur les odeurs actuelles et antérieures, ainsi que le traitement d’indices olfactifs intermittents ou peu fiables et de signaux sensoriels du vent pour permettre les insectes à adapter rapidement leurs trajectoires de vol.

« Et ils le font sans avoir une carte globale de l’environnement dans lequel ils volent, » Singh a ajouté.

S’il est reproduit de manière fiable dans des robots ou des agents artificiels, le suivi des panaches d’odeurs pourrait permettre aux chercheurs de fabriquer de meilleurs robots capables de détecter et de suivre les fuites de gaz nocifs, les incendies de forêt et d’autres menaces environnementales.

« Au lieu de mener une expérience traditionnelle en soufflerie en laboratoire, nous avons utilisé une approche complémentaire « in-silico » utilisant des réseaux de neurones artificiels, » Singh a expliqué. « Cela nous a aidés à développer une compréhension intégrative du suivi du panache à plusieurs niveaux, y compris le comportement émergent, la représentation neuronale et la dynamique neuronale. »

De nombreux neuroscientifiques ont commencé à utiliser des réseaux de neurones artificiels (RNA) formés sur des données étiquetées pour étudier et reproduire artificiellement des processus biologiques. Dans leur étude, Singh et ses collègues ont plutôt utilisé l’apprentissage par renforcement profond (DRL), une boîte à outils algorithmique qui ne fait que commencer à gagner du terrain dans les neurosciences, qui utilise des simulations plutôt que des données étiquetées pour former les ANN.

« Certaines applications récentes très réussies de DRL en dehors des neurosciences comprennent Le célèbre Go de DeepMind jouant à l’IAou certains des modèles de langage GPT récents d’OpenAI, » dit Singh. « Comme dans le dressage d’animaux, le DRL utilise des « récompenses » et des « punitions » simulées pour former des agents RNA capables d’accomplir des tâches de manière autonome. »

Pour former leurs agents de suivi de panache à l’aide de DRL, les chercheurs ont d’abord simulé une odeur émanant d’une source située dans une arène venteuse d’une superficie totale d’environ 120 m2. Lorsque leurs agents ont identifié où se trouvait la source de l’odeur, ils ont reçu une récompense. En revanche, s’ils perdaient la trace du panache d’odeur et quittaient l’arène, ils étaient « puni. »

« Après la formation, nous avons profité de la flexibilité de notre simulateur pour générer des panaches avec une variété de concentrations d’odeurs et de modèles de vent, pour voir comment l’agent se comporte précisément dans des conditions variables, » dit Singh. « Reproduire un contrôle aussi fin des configurations de panache dans une soufflerie réelle serait un effort plutôt laborieux. »

Singh et ses collègues ont également pu observer l’activité des unités individuelles de leur réseau neuronal artificiel (c’est-à-dire les neurones artificiels) alors qu’il suivait les panaches d’odeurs. De tels enregistrements de neurones individuels pendant le suivi n’ont pas encore été collectés chez les insectes pendant le vol de forme libre, car ils sont inaccessibles à l’aide des technologies existantes.

« Le comportement qui émerge de nos agents artificiels entraînés ressemble de façon frappante aux modules de comportement que les biologistes ont précédemment observés chez les insectes volants effectuant le suivi du panache, » dit Singh.

Les enregistrements recueillis par les chercheurs suggèrent que leur modèle pourrait reproduire les processus biologiques qui sous-tendent le suivi du panache d’odeurs chez les animaux. Par la suite, Singh et ses collègues ont simulé des configurations de panache qui pourraient être recréées dans de futures expériences en soufflerie dans le monde réel.

Ces simulations leur ont permis de générer différentes hypothèses sur la façon dont les agents artificiels pourraient se comporter lors du suivi des panaches dans des conditions de vent changeantes. Ils ont spécifiquement examiné les cas dans lesquels la direction du vent change fréquemment.

« En utilisant des observations comportementales et neuronales simultanées de nos agents ANN, nous avons développé des intuitions et un aperçu des algorithmes et des calculs neuronaux qui prennent en charge le suivi du panache, » Singh a expliqué. « À titre d’exemple, nous voyons que l’activité neuronale encode des variables telles que le temps écoulé depuis la dernière rencontre d’odeur, qui étaient auparavant supposées importantes pour le suivi du panache. Ces similitudes entre les résultats expérimentaux et informatiques précédents suggèrent l’importance fondamentale de ces quantités pour un suivi réussi du panache. »

En plus de permettre des avancées technologiques clés, les agents ANN peuvent être rétro-conçus pour mieux comprendre leur fonctionnement, ce qui pourrait à son tour potentiellement éclairer la recherche en neurosciences. Le modèle créé par Singh et ses collègues pourrait donc potentiellement être utilisé par les neuroscientifiques pour étudier les processus biologiques derrière le suivi du panache d’odeurs.

À l’avenir, les chercheurs espèrent que leur modèle inspirera la création d’agents robotiques capables de suivre les odeurs lors de missions de recherche et de sauvetage, d’efforts de surveillance de l’environnement et d’autres applications. Dans leurs prochaines études, ils prévoient de développer davantage leur modèle, en améliorant la fidélité physique et biologique de leurs simulations et agents afin qu’ils représentent mieux les panaches d’odeurs du monde réel. De plus, ils espèrent reproduire artificiellement d’autres caractéristiques et capacités physiologiques des insectes volants.

« Des travaux plus théoriques seront également nécessaires pour comprendre nos réseaux de neurones artificiels, pour mieux comprendre les calculs qui produisent le comportement émergent, » Singh a ajouté. « Enfin, nos agents effectuent une seule tâche, le suivi du panache, alors que les insectes volants ont un répertoire comportemental beaucoup plus riche. Développer les simulations et les paradigmes de formation d’agents qui pourraient reproduire une complexité biologique aussi riche est un formidable défi d’ingénierie qui devrait inspirer les travaux futurs. »