Le logiciel 'Glaze' vise à protéger l'art de l'imitation de l'IA

Un pionnier de l’IA affirme que le discours public sur les machines intelligentes doit accorder « un certain respect à l’action humaine »

Elle est une figure importante derrière le boom actuel de l’intelligence artificielle, mais tous les informaticiens ne pensaient pas que Fei-Fei Li était sur la bonne voie lorsqu’elle a eu l’idée d’une base de données visuelle géante appelée ImageNet, dont la construction a pris des années.

Li, aujourd’hui directrice fondatrice de l’Institut pour l’intelligence artificielle centrée sur l’humain de l’Université de Stanford, publie un nouveau mémoire qui raconte son travail de pionnier dans la conservation de l’ensemble de données qui a accéléré la branche de la vision par ordinateur de l’IA.

Le livre, « The World I See », décrit également ses années de formation qui sont brusquement passées de la Chine au New Jersey et la suit à travers le monde universitaire, la Silicon Valley et les salles du Congrès, alors que la commercialisation croissante de la technologie de l’IA a attiré l’attention du public et suscité des réactions négatives. Elle a parlé avec l’Associated Press du livre et du moment actuel de l’IA. L’interview a été éditée pour des raisons de longueur et de clarté.

Q : Votre livre décrit comment vous considériez ImageNet comme plus qu’un simple ensemble de données. Peux-tu expliquer?

R : ImageNet est vraiment l’histoire par excellence de l’identification de l’étoile polaire d’un problème d’IA, puis de la recherche d’un moyen d’y parvenir. L’objectif du North Star pour moi était de vraiment repenser la façon dont nous pouvons résoudre le problème de l’intelligence visuelle. L’un des problèmes les plus fondamentaux de l’intelligence visuelle est de comprendre ou de voir des objets, car le monde est constitué d’objets. La vision humaine est fondée sur notre compréhension des objets. Et il y en a beaucoup, beaucoup, beaucoup. ImageNet est en réalité une tentative de définir le problème de la reconnaissance d’objets et également de fournir une voie pour le résoudre, qui est la voie du Big Data.

Q : Si je pouvais voyager dans le temps il y a 15 ans, lorsque vous travailliez dur sur ImageNet et vous parlais de DALL-E, Stable Diffusion, Google Gemini et ChatGPT, qu’est-ce qui vous surprendrait le plus ?

R : Ce qui ne me surprend pas, c’est que tout ce que vous mentionnez (DALL-E, ChatGPT, Gemini) est basé sur des données volumineuses. Ils sont pré-entraînés sur une grande quantité de données. C’est exactement ce que j’espérais. Ce qui m’a surpris, c’est que nous sommes arrivés à l’IA générative plus rapidement que la plupart d’entre nous ne le pensions. La génération pour les humains n’est en réalité pas si simple. La plupart d’entre nous ne sont pas des artistes naturels. La génération la plus facile pour les humains est celle des mots car parler est génératif, mais le dessin et la peinture ne sont pas génératifs pour les humains normaux. Nous avons besoin des Van Gogh du monde.

Q : À votre avis, qu’attendent la plupart des gens des machines intelligentes et est-ce conforme à ce que les scientifiques et les entreprises technologiques construisent ?

R : Je pense que fondamentalement, les gens veulent la dignité et une bonne vie. C’est presque le principe fondateur de notre pays. Les machines et la technologie doivent être alignées sur les valeurs humaines universelles : la dignité et une vie meilleure, y compris la liberté et tout le reste. Parfois, lorsque nous parlons de technologie ou parfois lorsque nous construisons de la technologie, que ce soit intentionnel ou non, nous n’en parlons pas assez. Quand je dis « nous », cela inclut les technologues, les entreprises, mais aussi les journalistes. C’est notre responsabilité collective.

Q : Quelles sont les principales idées fausses à propos de l’IA ?

R : La plus grande idée fausse à propos de l’IA dans le journalisme est lorsque les journalistes utilisent le sujet AI et un verbe et mettent des humains dans l’objet. L’action humaine est très, très importante. Nous créons de la technologie, nous la déployons et nous la gouvernons. Les médias et le discours public, bien que fortement influencés par les médias, parlent de l’IA sans le respect nécessaire à l’action humaine. Nous avons tellement d’articles, tellement de discussions, qui commencent par « L’IA apporte le bla, le bla, le bla ; L’IA fait du bla bla bla ; L’IA délivre du bla bla bla ; L’IA détruit le bla, le bla, le bla. Et je pense que nous devons le reconnaître.

Q : Ayant étudié les neurosciences avant de vous lancer dans la vision par ordinateur, dans quelle mesure les processus d’IA sont-ils différents ou similaires à l’intelligence humaine ?

R : Parce que j’ai effleuré la surface des neurosciences, je respecte encore plus leur différence. Nous ne connaissons pas vraiment les détails complexes de la façon dont notre cerveau pense. Nous avons une certaine idée de tâches visuelles de niveau inférieur, comme voir les couleurs et les formes. Mais nous ne savons pas comment les humains écrivent Shakespeare, comment nous en arrivons à aimer quelqu’un, comment nous avons conçu le Golden Gate Bridge. Il y a tellement de complexité dans la science du cerveau humain qui reste encore un mystère. Nous ne savons pas comment y parvenir avec moins de 30 watts, l’énergie utilisée par le cerveau. Comment se fait-il que nous soyons si nuls en mathématiques alors que nous sommes si rapides à voir, naviguer et manipuler le monde physique ? Le cerveau est la source infinie d’inspiration pour ce que devrait être et ce que devrait faire l’intelligence artificielle. Son architecture neuronale – Hubel et Wiesel, neurophysiologistes lauréats du prix Nobel, en ont été les véritables découvreurs – a été le début de l’inspiration des réseaux neuronaux artificiels. Nous avons emprunté cette architecture, même si mathématiquement elle ne reproduit pas entièrement ce que fait le cerveau. Il y a beaucoup d’inspirations entrelacées. Mais nous devons aussi respecter qu’il y a beaucoup d’inconnues, donc il est difficile de dire à quel point elles sont similaires.