Les chercheurs optimisent les systèmes d'IA pour la science

L'utilisation de services tels que Chatgpt ou Microsoft Copilot peut parfois sembler magique – au point qu'il peut être facile d'oublier la science avancée qui coule dans les coulisses de tout système d'intelligence artificielle (IA). Comme tout système complexe, cependant, il y a toujours place à l'amélioration et à l'optimisation, selon Rui Zhang, professeur adjoint d'informatique et d'ingénierie à la Penn State School of Electrical Engineering and Computer Science.

Zhang et son groupe de recherche ont récemment rédigé trois articles introduisant de nouvelles approches pour traiter les images haute résolution et provoquer automatiquement de meilleures réponses des systèmes d'IA. Les papiers sont actuellement disponibles sur le arxiv serveur de préimprimée.

Le premier sera présenté lors de la 63e réunion annuelle de l'Association for Computational Linguistics, du 27 juillet au 1er août à Vienne, en Autriche. Le second sera partagé lors de la Conférence internationale de 2025 sur la vision par ordinateur, du 19 au 23 octobre à Honolulu, Hawaï, et le troisième a été présenté à la 13e Conférence internationale sur les représentations de l'apprentissage, du 24 au 28 avril à Singapour.

Dans les questions et réponses suivantes, Zhang a discuté du travail de son groupe, de la manière dont il peut améliorer l'efficacité et l'utilité de l'IA et certaines stratégies que les individus peuvent utiliser pour obtenir plus de valeur de leur utilisation personnelle de l'IA.

Qu'est-ce que l'ingénierie rapide? Y a-t-il des choses spécifiques que les lecteurs peuvent faire pour écrire de meilleures invites pour un système d'IA?

L'ingénierie rapide est le processus de conception des entrées efficaces – ou des « invites » – qui guident les systèmes d'IA comme Chatgpt pour produire de meilleures réponses. Étant donné que ces systèmes sont sensibles à la façon dont les questions sont posées, une invite bien conçue peut améliorer considérablement la sortie du système.

Par exemple, au lieu de demander: « Résumez cet article », vous pourriez dire « , résume cet article en trois puces pour un lycéen ». Le contexte supplémentaire aide l'IA à adapter sa réponse. Pour les utilisateurs de tous les jours, les stratégies clés sont d'être claires, spécifiques et axées sur les objectifs – n'ayez pas peur d'essayer plusieurs versions invites pour affiner les résultats.

Quels sont les avantages de l'automatisation et de l'optimisation de la génération rapide?

Bien que une bonne ingénierie rapide puisse améliorer considérablement les performances de l'IA, l'écriture de la meilleure invite prend souvent du temps, l'expérimentation et l'expertise dans le sujet incluses dans l'invite. Dans nos recherches, nous avons développé une méthode appelée plus grande qui permet aux systèmes d'IA de générer automatiquement et d'affiner les invites en utilisant l'optimisation basée sur le gradient, un type d'algorithme qui excelle dans l'optimisation des données dans les systèmes d'IA.

Nous avons également développé GreaterPrompt, une boîte à outils conviviale et open source construite sur la méthode plus grande, qui permet aux modèles de générer automatiquement et d'affiner les invites pour une large gamme de tâches. L'automatisation de ce processus signifie que l'IA peut s'adapter aux nouvelles tâches avec moins de contribution humaine, améliorer la précision, économiser du temps et réduire les coûts.

Cela est particulièrement utile pour les utilisateurs qui n'ont pas de temps ou d'expertise dans un sujet pour proposer une meilleure invite. En fournissant une boîte à outils open source, qui est disponible gratuitement pour que quiconque puisse télécharger, modifier ou partager, nous distribuons efficacement l'accès à notre travail pour tous les utilisateurs intéressés.

Comment avez-vous mesuré l'efficacité de plus? Y a-t-il des outils du monde réel qui pourraient s'améliorer avec sa mise en œuvre?

Nous avons évalué une grande variété de raisonnement linguistique et de tâches de résolution mathématiques de résolution de problèmes, telles que répondre aux questions complexes, résoudre des puzzles logiques et effectuer des calculs mathématiques. Les résultats ont montré que des performances significativement plus importantes par rapport à l'incitation standard – en particulier pour les modèles de langage plus petits qui luttent généralement avec ces tâches car ils sont limités avec des paramètres spécialisés pour des tâches et des questions spécifiques.

Dans certains cas, ces modèles plus petits optimisés rivalisés en rivalisaient beaucoup plus grand en qualité. Les applications du monde réel qui pourraient bénéficier comprennent des tuteurs alimentés par l'IA, des assistants d'écriture, des agents du support client et tout outil qui doit s'adapter rapidement à différents utilisateurs ou sujets sans reprogrammation manuelle.

Qu'est-ce que HRScen et pourquoi les chercheurs se soucient-ils de la «compréhension de l'image haute résolution»?

HRScene est une nouvelle référence que nous avons développée pour évaluer à quel point les modèles de langue visuelle modernes comme GPT-4V, Gemini ou Claude peuvent comprendre des images à haute résolution et denses avec des millions de pixels. Bien que ces modèles puissent répondre à des questions sur les images utilisant le langage naturel, elles échouent souvent lorsqu'ils traitent de grands visuels détaillés.

La compréhension de l'image haute résolution est essentielle car de nombreuses applications scientifiques et sociétales réelles dépendent de détails subtils et localisés qui peuvent être manqués par des modèles non équipés pour gérer l'entrée visuelle à grande échelle. HRScene comprend des exemples organisés de domaines comme la radiologie, le phénotypage des plantes, la télédétection et l'astronomie, ce qui contribuera à accélérer le développement de systèmes d'IA capables d'interpréter les visuels et d'améliorer leur précision d'évaluation.

Quelles sont les applications du traitement d'image haute résolution précis et efficace?

L'impact potentiel couvre de nombreux domaines scientifiques et sociaux. Dans les soins de santé, les outils d'IA à haute résolution pourraient aider à interpréter plus efficacement les analyses de radiologie comme les IRM ou les CT, conduisant à des diagnostics plus antérieurs et plus précis. Dans l'agriculture, l'IA pourrait aider au phénotypage végétal – analysant les traits comme la structure des feuilles ou la présence de la maladie à partir d'images détaillées – pour améliorer les rendements des cultures et la durabilité. En sciences de l'environnement et en sécurité publique, l'imagerie par satellite haute résolution est utilisée pour la surveillance des catastrophes, l'urbanisme et la recherche climatique.

L'astronomie pourrait également être améliorée, car les chercheurs analysent actuellement l'imagerie du télescope à des résolutions extrêmement élevées pour détecter des objets célestes faibles ou éloignés. Les systèmes d'IA qui peuvent traiter de manière fiable ces données pourraient accélérer la découverte scientifique, améliorer les outils de santé publique et améliorer les réponses aux défis mondiaux.