Les scientifiques créent une IA qui ‘montres’ des vidéos en imitant le cerveau
Imaginez un modèle d'intelligence artificielle (IA) capable d'observer et de comprendre des images en mouvement avec la subtilité d'un cerveau humain. Aujourd'hui, les scientifiques de Scripps Research ont fait de cela une réalité en créant MovieNet : une IA innovante qui traite les vidéos de la même manière que notre cerveau interprète les scènes de la vie réelle au fur et à mesure qu'elles se déroulent au fil du temps.
Ce modèle d'IA inspiré du cerveau, détaillé dans une étude publiée dans le Actes de l'Académie nationale des sciences le 19 novembre 2024, pourra percevoir des scènes en mouvement en simulant la manière dont les neurones – ou cellules cérébrales – donnent un sens au monde en temps réel.
L’IA conventionnelle excelle dans la reconnaissance des images fixes, mais MovieNet introduit une méthode permettant aux modèles d’apprentissage automatique de reconnaître des scènes complexes et changeantes – une avancée qui pourrait transformer les domaines du diagnostic médical à la conduite autonome, où la détection de changements subtils au fil du temps est cruciale. MovieNet est également plus précis et plus durable sur le plan environnemental que l'IA conventionnelle.
« Le cerveau ne’Je ne vois pas simplement les images fixes ; cela crée un récit visuel continu », explique l'auteur principal Hollis Cline, Ph.D., directeur du Dorris Neuroscience Center et professeur Hahn de neurosciences à Scripps Research.
« La reconnaissance d'images statiques a parcouru un long chemin, mais le cerveau’La capacité d'un ordinateur à traiter des scènes fluides, comme regarder un film, nécessite une forme de reconnaissance de formes beaucoup plus sophistiquée. En étudiant comment les neurones capturent ces séquences, nous’J'ai pu appliquer des principes similaires à l'IA.
Pour créer MovieNet, Cline et le premier auteur Masaki Hiramoto, chercheur chez Scripps Research, ont examiné comment le cerveau traite les scènes du monde réel sous forme de courtes séquences, semblables à des extraits de films. Plus précisément, les chercheurs ont étudié comment les neurones des têtards répondaient aux stimuli visuels.
« Les têtards ont un très bon système visuel et nous savons qu'ils peuvent détecter et répondre efficacement aux stimuli en mouvement », explique Hiramoto.
Lui et Cline ont identifié des neurones qui réagissent à des caractéristiques semblables à celles d'un film, telles que les changements de luminosité et la rotation de l'image, et peuvent reconnaître les objets lorsqu'ils se déplacent et changent. Situé dans le cerveau’Dans la région de traitement visuel connue sous le nom de tectum optique, ces neurones assemblent des parties d’une image en mouvement en une séquence cohérente.
Considérez ce processus comme un puzzle lenticulaire : chaque pièce seule n'a peut-être pas de sens, mais ensemble, elles forment une image complète en mouvement. Différents neurones traitent diverses « pièces de puzzle » d’une image animée réelle, que le cerveau intègre ensuite dans une scène continue.
Les chercheurs ont également découvert que les têtards’ Les neurones optiques du tectum ont distingué des changements subtils dans les stimuli visuels au fil du temps, capturant des informations dans des clips dynamiques d'environ 100 à 600 millisecondes plutôt que dans des images fixes. Ces neurones sont très sensibles aux schémas de lumière et d'ombre, et chaque neurone’La réponse de S à une partie spécifique du champ visuel aide à construire une carte détaillée d'une scène pour former un « clip vidéo ».
Cline et Hiramoto ont formé MovieNet pour émuler ce traitement semblable à celui du cerveau et encoder des clips vidéo sous la forme d'une série de petits repères visuels reconnaissables. Cela a permis au modèle d'IA de distinguer des différences subtiles entre les scènes dynamiques.
Pour tester MovieNet, les chercheurs lui ont montré des clips vidéo de têtards nageant dans différentes conditions. Non seulement MovieNet a atteint une précision de 82,3 % dans la distinction des comportements de nage normaux et anormaux, mais il a également dépassé les capacités des observateurs humains qualifiés d'environ 18 %. Il a même surpassé les modèles d'IA existants tels que Google’s GoogLeNet, qui n'a atteint qu'un taux de précision de 72 % malgré ses ressources de formation et de traitement étendues.
« C'est là que nous avons vu un réel potentiel », souligne Cline.
L’équipe a déterminé que MovieNet était non seulement meilleur que les modèles d’IA actuels pour comprendre les changements de scènes, mais qu’il utilisait également moins de données et de temps de traitement. FilmNet’La capacité de l'entreprise à simplifier les données sans sacrifier la précision la distingue également de l'IA conventionnelle. En décomposant les informations visuelles en séquences essentielles, MovieNet compresse efficacement les données comme un fichier compressé qui conserve les détails critiques.
Au-delà de sa grande précision, MovieNet est un modèle d’IA respectueux de l’environnement. Le traitement conventionnel de l’IA nécessite une énergie immense, laissant une lourde empreinte environnementale. FilmNet’Les exigences réduites en matière de données offrent une alternative plus écologique qui économise l’énergie tout en respectant des normes élevées.
« En imitant le cerveau, nous’J'ai réussi à rendre notre IA beaucoup moins exigeante, ouvrant la voie à des modèles qui sont' »Ce n'est pas seulement puissant mais durable », déclare Cline. « Cette efficacité ouvre également la porte au développement de l'IA dans des domaines où les méthodes conventionnelles sont coûteuses. »
De plus, MovieNet a le potentiel de remodeler la médecine. À mesure que la technologie progresse, elle pourrait devenir un outil précieux pour identifier des changements subtils dans des conditions à un stade précoce, comme la détection d'un rythme cardiaque irrégulier ou le repérage des premiers signes de maladies neurodégénératives comme celle de Parkinson.’s. Par exemple, de petits changements moteurs liés à Parkinson’Les éléments souvent difficiles à discerner pour l’œil humain pourraient être signalés dès le début par l’IA, ce qui donnerait aux cliniciens un temps précieux pour intervenir.
De plus, MovieNet’La capacité de Percevoir les changements dans les habitudes de nage des têtards lorsque les têtards sont exposés à des produits chimiques pourrait conduire à des techniques de dépistage de drogues plus précises, car les scientifiques pourraient étudier les réponses cellulaires dynamiques plutôt que de s'appuyer sur des instantanés statiques.
« Les méthodes actuelles négligent les changements critiques car elles ne peuvent analyser que les images capturées à intervalles réguliers », remarque Hiramoto. « L'observation des cellules au fil du temps signifie que MovieNet peut suivre les changements les plus subtils lors des tests de dépistage de drogues. »
Pour l'avenir, Cline et Hiramoto prévoient de continuer à affiner MovieNet’Sa capacité à s'adapter à différents environnements, améliorant ainsi sa polyvalence et ses applications potentielles.
« S'inspirer de la biologie continuera d'être un domaine fertile pour faire progresser l'IA », déclare Cline. « En concevant des modèles qui pensent comme des organismes vivants, nous pouvons atteindre des niveaux d'efficacité tout simplement inimaginables. »‘Ce n'est pas possible avec les approches conventionnelles.