Modèles de grande séquence pour la prise de décision séquentielle

Modèles de grande séquence pour la prise de décision séquentielle

Les architectures Transformer ont facilité le développement de modèles de séquence à grande échelle et à usage général pour les tâches de prédiction dans le traitement du langage naturel et la vision par ordinateur, par exemple GPT-3 et Swin Transformer.

Bien que conçus à l’origine pour des problèmes de prédiction, il est naturel de s’interroger sur leur pertinence dans un autre domaine important, les problèmes de prise de décision séquentielle et d’apprentissage par renforcement, qui sont généralement en proie à des problèmes de longue date impliquant l’efficacité des échantillons, l’attribution de crédits et l’observabilité partielle, etc. .

Ces dernières années, les modèles de séquence, en particulier le Transformer, ont suscité un intérêt croissant dans les communautés RL, engendrant de nombreuses approches d’une efficacité et d’une généralisabilité remarquables.

Pour inspirer davantage d’investigations sur ce sujet tendance et permettre davantage d’applications du monde réel, par exemple la robotique, les véhicules automatiques et l’industrie automatisée, une équipe de recherche dirigée par Muning Wen a publié son enquête dans Frontières de l’informatique.

Modèles de grande séquence pour la prise de décision séquentielle

L’enquête présente un aperçu complet des travaux récents visant à résoudre des tâches de prise de décision séquentielle avec des modèles de séquence tels que le Transformer, en discutant du lien entre la prise de décision séquentielle et la modélisation de séquence, et en les catégorisant en fonction de la manière dont ils utilisent le Transformer.

Ces travaux suggèrent la possibilité de construire un grand modèle de décision à des fins générales, c’est-à-dire un modèle à grande séquence capable d’exploiter un grand nombre de paramètres pour effectuer des centaines ou plus de tâches de prise de décision séquentielles, de la même manière que les modèles à grande séquence. ont été exploités pour la PNL et le CV.

Pour examiner le développement du Transformer dans le domaine de la prise de décision séquentielle, les auteurs ont résumé des travaux récents qui convertissent le problème d’apprentissage par renforcement en forme séquentielle, afin d’exploiter des modèles de séquence pour des paramètres d’apprentissage par renforcement spécifiques.

Modèles de grande séquence pour la prise de décision séquentielle

Les méthodes de synthèse des auteurs exploitent diverses données pour pré-entraîner un modèle de séquence à grande échelle pour diverses tâches de prise de décision séquentielle en aval, inspirées par l’énorme succès de la PNL et du CV.

L’équipe propose diverses pistes potentielles de recherche future pour améliorer l’efficacité des modèles à grande séquence pour la prise de décision séquentielle, englobant les fondements théoriques, les architectures de réseau, les algorithmes et les systèmes de formation efficaces. Ils espèrent que cette enquête pourrait inspirer davantage d’enquêtes sur ce sujet tendance.

Fourni par Higher Education Press