L'étude montre comment mesurer le désalignement

L’étude montre comment mesurer le désalignement

Idéalement, les agents de l’intelligence artificielle visent à aider les humains, mais qu’est-ce que cela signifie lorsque les humains veulent des choses contradictoires? Mes collègues et moi avons trouvé un moyen de mesurer l’alignement des objectifs d’un groupe d’humains et d’agents de l’IA.

Le problème d’alignement – permettant que les systèmes d’IA agissent en fonction des valeurs humaines – se trouvent plus urgents à mesure que les capacités de l’IA se développent de façon exponentielle. Mais l’alignement de l’IA vers l’humanité semble impossible dans le monde réel parce que chacun a ses propres priorités. Par exemple, un piéton pourrait vouloir qu’une voiture autonome claque sur les freins si un accident semble probable, mais un passager dans la voiture pourrait préférer évoluer.

En examinant des exemples comme celui-ci, nous avons développé une partition de désalignement basée sur trois facteurs clés: les humains et les agents de l’IA impliqués, leurs objectifs spécifiques pour différents problèmes et l’importance de chaque problème pour eux. Notre modèle de désalignement est basé sur une simple perspicacité: un groupe d’humains et d’agents de l’IA est le plus aligné lorsque les objectifs du groupe sont les plus compatibles.

Dans les simulations, nous avons constaté que le désalignement culmine lorsque les objectifs sont répartis uniformément entre les agents. Cela a du sens – si tout le monde veut quelque chose de différent, le conflit est le plus élevé. Lorsque la plupart des agents partagent le même objectif, le désalignement baisse.

Pourquoi ça compte

La plupart des recherches sur la sécurité de l’IA traitent l’alignement comme une propriété tout ou rien. Notre cadre montre que c’est plus complexe. La même IA peut être alignée sur les humains dans un contexte mais mal aligné dans un autre.

Cela compte, car cela aide les développeurs de l’IA à être plus précis sur ce qu’ils entendent par IA aligné. Au lieu d’objectifs vagues, tels que s’aligner sur les valeurs humaines, les chercheurs et les développeurs peuvent parler plus clairement de contextes et de rôles spécifiques pour l’IA. Par exemple, un système de recommandation d’IA – ceux-ci «vous pourriez aimer» les suggestions de produits – qui incitent quelqu’un à effectuer un achat inutile pourrait être aligné sur l’objectif du détaillant d’augmenter les ventes mais mal aligné avec l’objectif du client de vivre selon ses moyens.

Pour les décideurs politiques, les cadres d’évaluation comme les nôtres offrent un moyen de mesurer le désalignement dans les systèmes utilisés et créent des normes d’alignement. Pour les développeurs d’IA et les équipes de sécurité, il fournit un cadre pour équilibrer les intérêts concurrents des parties prenantes.

Pour tout le monde, avoir une compréhension claire du problème rend les gens mieux à pouvoir aider à le résoudre.

Quelles autres recherches se produisent

Pour mesurer l’alignement, notre recherche suppose que nous pouvons comparer ce que les humains veulent avec ce que veut l’IA. Les données sur la valeur humaine peuvent être collectées via des enquêtes, et le domaine du choix social offre des outils utiles pour l’interpréter pour l’alignement de l’IA. Malheureusement, l’apprentissage des objectifs des agents de l’IA est beaucoup plus difficile.

Les systèmes d’IA les plus intelligents d’aujourd’hui sont des modèles de grandes langues, et leur nature noire rend difficile d’apprendre les objectifs des agents d’IA tels que le chatppt qu’ils alimentent. La recherche d’interprétabilité pourrait aider à révéler les «pensées» intérieures des modèles, ou les chercheurs pourraient concevoir l’IA qui pense de manière transparente pour commencer. Mais pour l’instant, il est impossible de savoir si un système d’IA est vraiment aligné.

Quelle est la prochaine étape

Pour l’instant, nous reconnaissons que parfois les objectifs et les préférences ne reflètent pas pleinement ce que les humains veulent. Pour aborder les scénarios plus délicats, nous travaillons sur des approches pour aligner l’IA sur des experts en philosophie morale.

À l’avenir, nous espérons que les développeurs mettront en œuvre des outils pratiques pour mesurer et améliorer l’alignement à travers diverses populations humaines.