L'algorithme rapproche les robots de la capacité à 'agir selon l'intuition'

Des chercheurs de l’Université de Hertfordshire ont développé un nouvel algorithme qui permettra aux robots de fonctionner de manière plus intuitive, c’est-à-dire de prendre des décisions en s’appuyant sur leur environnement.

Le principe est que, grâce à l’algorithme, l’agent robot crée ses propres objectifs.

Pour la première fois, l’algorithme unifie différentes approches de définition d’objectifs sous un concept directement lié à la physique, et il rend en outre ce calcul transparent afin que d’autres puissent l’étudier et l’adopter.

Le principe de l'algorithme est lié à la célèbre théorie du chaos, car la méthode rend l'agent « maître du chaos du système ».’« s dynamique ».

L'étude a été publiée dans la revue La vie de PRXLes chercheurs de Herts ont exploré des « modèles de motivation » de robots qui imitent les processus de prise de décision des humains et des animaux, même en l’absence de signaux de récompense clairs.

L’étude présente des formules d’intelligence artificielle (IA) qui calculent une manière pour un robot de décider des actions futures sans instructions directes ni intervention humaine.

Daniel Polani, professeur d'informatique et auteur principal, explique : « D'un point de vue appliqué, cela pourrait signifier, par exemple, amener un robot à jouer et à manipuler des objets par lui-même sans qu'on lui dise de le faire.

« Cela pourrait améliorer la façon dont les robots apprennent à interagir à la fois avec les humains et avec d’autres robots en encourageant davantage ‘naturel’ comportements et interactions.

« Cela a d’autres applications, comme le comportement de survie de robots semi-autonomes placés dans des situations où ils sont inaccessibles pour un opérateur humain, comme dans des endroits souterrains ou interplanétaires. »

Chez les humains et les animaux, une théorie suppose l'existence d'une « motivation intrinsèque », où les comportements sont uniquement déterminés par l'interaction entre l'être et son environnement plutôt que par des récompenses apprises spécifiques, telles que la nourriture. Cet article traduit avec succès cette théorie de la « motivation intrinsèque » en une théorie qui peut être utilisée par des agents robotiques.

Le professeur Polani ajoute : « Ce travail est passionnant car nous pouvons désormais mettre en œuvre un mécanisme, similaire à ceux qui aident les humains et les animaux à résoudre de nouveaux problèmes sans expérience préalable, dans les robots.

« Nous espérons pouvoir nous appuyer sur ces travaux pour développer à l’avenir des robots plus humanoïdes dotés de processus plus intuitifs. Cela ouvre une immense opportunité pour des robots plus sophistiqués dotés de processus de décision similaires aux nôtres. »

La théorie sur laquelle repose cet article, appelée « maximisation de l'autonomisation », a été développée à Herts depuis de nombreuses années. Elle suggère qu'en augmentant la gamme des résultats futurs, un robot aura de meilleures options également dans un avenir plus long. Il est important de noter que cette méthode remplace et donc peut-être annule les systèmes de récompense traditionnels (par exemple les signaux alimentaires).

Bien que la maximisation de l’autonomisation se soit révélée prometteuse, elle n’est pas encore pleinement comprise ni largement appliquée. La plupart des études s’appuyaient sur des simulations, alors que le calcul minutieux des informations nécessaires pour les systèmes complexes et la théorie restent un défi.

Cependant, cette dernière recherche innovante vise à expliquer pourquoi les motivations basées sur l’autonomisation peuvent créer des comportements similaires à ceux des organismes vivants, conduisant potentiellement à des robots plus intrinsèquement motivés ; et elle offre en outre un moyen considérablement amélioré de calculer ces motivations.

Selon le professeur Polani, les prochaines étapes consisteront à utiliser cet algorithme révolutionnaire pour permettre aux robots d’en savoir plus sur le monde, en développant l’apprentissage direct et en identifiant et perfectionnant de nouvelles compétences qui augmenteraient leur valeur dans des scénarios du monde réel.