Comment nous sommes arrivés ici et où nous allons

Avec l’engouement actuel pour l’intelligence artificielle (IA), il serait facile de penser qu’il s’agit d’une innovation récente. En fait, l’IA existe sous une forme ou une autre depuis plus de 70 ans. Pour comprendre la génération actuelle d’outils d’IA et où ils pourraient nous mener, il est utile de comprendre comment nous en sommes arrivés là.

Chaque génération d’outils d’IA peut être considérée comme une amélioration par rapport à celles qui l’ont précédée, mais aucun de ces outils ne se dirige vers la conscience.

Le mathématicien et pionnier de l'informatique Alan Turing a publié en 1950 un article dont la première phrase était : « Je propose de réfléchir à la question : les machines peuvent-elles penser ? ». Il propose ensuite ce qu'on appelle le jeu de l'imitation, communément appelé aujourd'hui le test de Turing, dans lequel une machine est considérée comme intelligente si elle ne peut être distinguée d'un humain dans une conversation à l'aveugle.

Cinq ans plus tard, la première utilisation publiée de l'expression « intelligence artificielle » est apparue dans une proposition pour le projet de recherche d'été de Dartmouth sur l'intelligence artificielle.

À partir de ces débuts, une branche de l'IA connue sous le nom de systèmes experts a été développée à partir des années 1960. Ces systèmes ont été conçus pour capturer l'expertise humaine dans des domaines spécialisés. Ils utilisaient des représentations explicites des connaissances et sont donc un exemple de ce que l'on appelle l'IA symbolique.

Les premiers succès ont été largement médiatisés, notamment les systèmes d'identification de molécules organiques, de diagnostic d'infections sanguines et de prospection de minéraux. L'un des exemples les plus marquants est un système appelé R1 qui, en 1982, aurait permis à la Digital Equipment Corporation d'économiser 25 millions de dollars par an en concevant des configurations efficaces de ses systèmes de mini-ordinateurs.

L'avantage principal des systèmes experts était qu'un spécialiste du sujet sans aucune expertise en codage pouvait, en principe, créer et maintenir la base de connaissances de l'ordinateur. Un composant logiciel appelé moteur d'inférence appliquait ensuite ces connaissances pour résoudre de nouveaux problèmes dans le domaine concerné, avec une série de preuves fournissant une forme d'explication.

Ces systèmes étaient très en vogue dans les années 1980, les organisations souhaitant créer leurs propres systèmes experts, et ils restent aujourd’hui un élément utile de l’IA.

Entrez dans l'apprentissage automatique

Le cerveau humain contient environ 100 milliards de cellules nerveuses, ou neurones, interconnectées par une structure dendritique (ramifiée). Ainsi, alors que les systèmes experts visaient à modéliser la connaissance humaine, un domaine distinct connu sous le nom de connexionnisme émergeait également, visant à modéliser le cerveau humain de manière plus littérale. En 1943, deux chercheurs, Warren McCulloch et Walter Pitts, avaient produit un modèle mathématique pour les neurones, selon lequel chacun produirait une sortie binaire en fonction de ses entrées.

L'une des premières implémentations informatiques de neurones connectés a été développée par Bernard Widrow et Ted Hoff en 1960. Ces développements étaient intéressants, mais ils ont eu une utilité pratique limitée jusqu'au développement d'un algorithme d'apprentissage pour un modèle logiciel appelé perceptron multicouche (MLP) en 1986.

Le MLP est un agencement de trois ou quatre couches de neurones simples simulés, où chaque couche est entièrement interconnectée avec la suivante. L'algorithme d'apprentissage du MLP a constitué une avancée majeure. Il a permis de créer le premier outil pratique capable d'apprendre à partir d'un ensemble d'exemples (les données d'apprentissage) puis de généraliser de manière à pouvoir classer des données d'entrée jusqu'alors inconnues (les données de test).

Il a réussi cet exploit en attachant des pondérations numériques aux connexions entre les neurones et en les ajustant pour obtenir la meilleure classification avec les données de formation, avant d'être déployé pour classer des exemples inédits.

Le MLP pourrait prendre en charge une large gamme d'applications pratiques, à condition que les données soient présentées dans un format exploitable. Un exemple classique est la reconnaissance de caractères manuscrits, mais uniquement si les images étaient prétraitées pour en extraire les caractéristiques clés.

Nouveaux modèles d'IA

Suite au succès du MLP, de nombreuses formes alternatives de réseaux neuronaux ont commencé à émerger. L'une d'entre elles a été le réseau neuronal convolutionnel (CNN) en 1998, qui était similaire au MLP à l'exception de ses couches supplémentaires de neurones permettant d'identifier les caractéristiques clés d'une image, éliminant ainsi le besoin de prétraitement.

Le MLP et le CNN étaient tous deux des modèles discriminatifs, ce qui signifie qu'ils pouvaient prendre une décision, classant généralement leurs entrées pour produire une interprétation, un diagnostic, une prédiction ou une recommandation. Parallèlement, d'autres modèles de réseaux neuronaux étaient en cours de développement et étaient génératifs, ce qui signifie qu'ils pouvaient créer quelque chose de nouveau, après avoir été formés sur un grand nombre d'exemples antérieurs.

Les réseaux neuronaux génératifs pourraient produire du texte, des images ou de la musique, ainsi que générer de nouvelles séquences pour aider aux découvertes scientifiques.

Deux modèles de réseaux neuronaux génératifs se distinguent : les réseaux génératifs antagonistes (GAN) et les réseaux transformateurs. Les GAN obtiennent de bons résultats car ils sont en partie « antagonistes », ce qui peut être considéré comme un critique intégré qui exige une amélioration de la qualité du composant « génératif ».

Les réseaux de transformateurs sont devenus célèbres grâce à des modèles tels que GPT4 (Generative Pre-trained Transformer 4) et sa version textuelle, ChatGPT. Ces modèles à grand langage (LLM) ont été formés sur d'énormes ensembles de données, tirés d'Internet. Le retour d'information humain améliore encore leurs performances grâce à ce que l'on appelle l'apprentissage par renforcement.

En plus de produire une capacité génératrice impressionnante, le vaste ensemble de formation signifie que ces réseaux ne sont plus limités à des domaines étroits spécialisés comme leurs prédécesseurs, mais qu'ils sont désormais généralisés pour couvrir n'importe quel sujet.

Où va l’IA ?

Les capacités des LLM ont conduit à des prédictions alarmistes selon lesquelles l’IA prendrait le contrôle du monde. De telles craintes sont injustifiées, à mon avis. Bien que les modèles actuels soient manifestement plus puissants que leurs prédécesseurs, la trajectoire reste résolument orientée vers une plus grande capacité, une plus grande fiabilité et une plus grande précision, plutôt que vers une quelconque forme de conscience.

Comme l'a fait remarquer le professeur Michael Wooldridge lors de son témoignage devant la Chambre des Lords du Parlement britannique en 2017, « le rêve hollywoodien des machines conscientes n'est pas imminent, et je ne vois en effet aucune voie qui nous y conduirait ». Sept ans plus tard, son évaluation est toujours d'actualité.

Les applications potentielles de l’IA sont nombreuses et prometteuses, mais un regard sur l’histoire montre que l’apprentissage automatique n’est pas le seul outil. L’IA symbolique a toujours un rôle à jouer, car elle permet d’intégrer des faits connus, la compréhension et les perspectives humaines.

Par exemple, une voiture autonome peut être informée des règles de la route plutôt que de les apprendre par l'exemple. Un système de diagnostic médical peut être comparé aux connaissances médicales pour fournir une vérification et une explication des résultats d'un système d'apprentissage automatique.

Les connaissances sociétales peuvent être utilisées pour filtrer les résultats offensants ou biaisés. L’avenir s’annonce prometteur et il impliquera l’utilisation de toute une série de techniques d’IA, dont certaines existent depuis de nombreuses années.

Cet article est republié par The Conversation sous licence Creative Commons. Lire l'article original.