Rendre l’IA plus accessible dans le football
La technologie améliore le football, des arbitres à prendre des décisions plus précises pour développer de meilleures tactiques sur le terrain. Eth Zurich et la FIFA explorent comment l’IA peut rendre ces progrès plus accessibles aux compétitions dans le monde.
L’intelligence artificielle (IA) est déjà utilisée dans le football aujourd’hui, analysant les mouvements individuels et aidant les arbitres à évaluer si quelqu’un était hors-jeu. La technologie de hors-jeu semi-automatisée (SAOT) est utilisée par les arbitres des assistants vidéo (VARS) pour prendre des décisions plus équitables. Le système fonctionne en utilisant le suivi numérique en temps réel des mouvements et des positions des joueurs.
Jusqu’à présent, les systèmes assistés par ordinateur n’ont été à portée de main que de grandes compétitions de football. Après tout, ces systèmes sont complexes et coûteux: 10 à 12 caméras statiques qui enregistrent l’action sous différents angles sont nécessaires pour chaque stade. « Toutes les caméras doivent être parfaitement synchronisées afin de produire une ressemblance numérique précise », explique Tianjian Jiang, doctorant en sciences informatiques.
Jiang mène des recherches au laboratoire avancé des technologies interactives (AIT) d’ETH Zurich. Avec des collègues du laboratoire, il aide la FIFA – la Fédération Internationale de Football Association – pour explorer des solutions technologiques qui augmenteraient l’accès à l’IA dans le football.
L’idée sous-jacente est de simplifier le système à une telle mesure que, plutôt que plusieurs caméras, elle n’en nécessite qu’une. Après tout, chaque compétition professionnelle a une caméra qui est utilisée pour enregistrer et diffuser les jeux. Cette caméra de radiodiffusion se trouve sur la ligne de touche et est la source de près des trois quarts de toutes les images d’un jeu télévisé.
Séquences de jeu entièrement numérisées
Il faudra encore quelques années avant que l’analyse vidéo d’un jeu fonctionne de manière fiable avec une seule caméra, mais le laboratoire AIT a maintenant fait un pas décisif dans cette direction. Les chercheurs ont complètement numérisé près de 50 minutes d’enregistrements vidéo de divers jeux de la Coupe du Monde de la FIFA 2022.
L’ensemble de données ETH, connu sous le nom de WorldPose, contient plus de 2,5 millions de poses de joueurs individuels en trois dimensions. Il est donc possible de suivre tous les joueurs sur le terrain, des deux équipes, en même temps et d’analyser où ils se tiennent et ce qu’ils font avec ou sans le ballon.
Dans l’apprentissage automatique, ceci est connu sous le nom d’estimation de la pose. Contrairement à un humain, un ordinateur ne peut pas voir et s’appuie donc sur des données afin de détecter où les personnes ou les objets sont dans un espace et comment ils se déplacent.
Grâce à une formation constante, l’ordinateur apprend à traiter et à interpréter les informations à partir de données d’image et de vidéo. La vision par ordinateur nécessite de grands volumes de données, que l’ordinateur analyse à plusieurs reprises jusqu’à ce qu’il identifie les différences et détecte finalement les modèles. Les algorithmes permettent à la machine d’apprendre par elle-même au lieu d’avoir à être programmé par des humains.
3D avec juste une seule caméra
Il existe déjà des algorithmes qui peuvent générer des objets et des corps tridimensionnels directement à partir d’une image bidimensionnelle. Dans « l’estimation de la pose monoculaire » (MPE), un ordinateur utilise des images d’un seul appareil photo pour détecter où les gens ou les objets sont dans l’espace, comment ils se déplacent et où. L’ordinateur analyse donc la pose et la trajectoire de chaque joueur sans le type d’informations de profondeur qui seraient fournies par une caméra 3D ou plusieurs caméras.
Les méthodes MPE existantes sont désormais très bonnes pour prédire les poses des joueurs individuels. Cependant, ils ont du mal à suivre plusieurs personnes en même temps, en particulier sur de grandes distances telles que celles couvertes par les joueurs de football sur un match de 90 minutes. « Nous voulons trouver un algorithme qui est suffisamment précis même sur de grandes distances », explique Jiang.
Plus difficile que prévu
La FIFA a approché ETH Zurich en 2021 à la recherche d’un ensemble de données afin que les ordinateurs puissent être formés pour estimer les poses. Ils voulaient également savoir à quel point les méthodes MPE existantes étaient bonnes. À cette fin, la FIFA a fourni aux chercheurs diverses séquences vidéo de la Coupe du monde 2022 au Qatar, qui ont été enregistrées à l’aide de différentes caméras (stationnaire et mobile), ainsi que d’autres données telles que les dimensions exact des champs de jeu dans les stades individuels.
Cette tâche a occupé les chercheurs de l’ETH pendant trois ans – une éternité dans le monde en avancé rapidement de l’IA. « Au début, nous pensions que nous pourrions rapidement gagner un ensemble de données précis », se souvient Jiang. « Nous avions déjà un système qui pourrait représenter les poses et les trajectoires précisément sous forme numérique, et nous avons supposé que ce serait facile à appliquer aux images de la Coupe du monde. »
Ils ont rapidement réalisé qu’il y avait une grande différence entre simplement numériser les séquences individuelles et l’application du système à un ensemble de données plus large. Par exemple, les défis techniques comprenaient l’obstruction des joueurs, le flou de mouvement et les problèmes de l’étalonnage de la caméra. Les distorsions des différentes caméras ou du zoom de la caméra de radiodiffusion se sont également révélées difficiles.
Les lignes doivent correspondre parfaitement
Pour s’assurer que les joueurs numériques se sont retrouvés précisément superposés au-dessus des vrais joueurs, les chercheurs ont d’abord dû calibrer et comparer les séquences vidéo des différentes caméras statiques d’un stade – avec des angles différents. L’étalonnage sert à déterminer avec précision les propriétés spécifiques de chaque caméra, telles que la taille focale ou la taille du capteur, et ajuster la caméra afin qu’elle enregistre la réalité aussi précisément que possible. En effet, chaque caméra souffre de certaines distorsions en raison de son optique, comme lorsqu’il s’agit de représenter des lignes droites.
Les lignes de référence numériques sont ensuite placées sur l’image de la caméra en tant qu’aide visuelle. Cette superposition montre dans quelle mesure l’étalonnage fonctionne bien ou s’il y a encore des distorsions. « Si l’étalonnage est correct, la ligne de champ numérique chevauche parfaitement la vraie – de tous les angles », explique Jiang.
L’ordinateur peut ensuite utiliser les paramètres coordonnés avec précision des caméras statiques pour estimer les poses et les trajectoires des joueurs. En utilisant le modèle SMPL, qui est largement utilisé dans la vision par ordinateur, le corps numérique est représenté de sorte qu’il est aussi proche que possible de l’original humain.
Ces données sont ensuite utilisées pour « nourrir » la caméra de diffusion mobile, qui est également calibrée – en les déplaçant dans toutes les directions, par exemple, et en le zoomant. Si les données réelles et numériques se chevauchent correctement, il est désormais possible de représenter la position exacte, la trajectoire et la pose des joueurs individuels sur la hauteur numériquement en trois dimensions, en utilisant une seule caméra.
Zoom a poussé le système à ses limites
À l’aide de leur ensemble de données, les chercheurs de l’ETH ont ensuite pu faire une comparaison détaillée de la question de savoir si une seule caméra avec la technologie MPE existante est en mesure de détecter un joueur dans une position de hors-jeu suffisamment ou non. Dans leur étude, qui a été présentée à la Conférence européenne sur la vision informatique de Milan, les informaticiens ont constaté que les méthodes existantes ont du mal avec ce nouvel ensemble de données, mettant en évidence les nouvelles directions de recherche potentielles.
Les estimations de pose avec une seule caméra peuvent déterminer les poses et les mouvements dans un petit espace avec un degré élevé de précision, même dans le cas d’une longue distance focale ou s’il y a une longue distance entre la personne et la caméra. Les modèles MPE fonctionnent également relativement bien avec des séquences de mouvement individuelles, mais ils ont du mal à déterminer les positions relatives de plusieurs joueurs dans le même espace. Le zoom avant et hors de la caméra s’est avéré particulièrement exigeant. « Cela nous a confirmé que de nombreuses recherches sont encore nécessaires pour obtenir un système de travail et stable », explique Jiang.
Données publiées pour la concurrence
Avec l’ensemble de données WorldPose, l’objectif est désormais pour d’autres scientifiques de former leurs systèmes et de développer des algorithmes afin qu’une analyse précise d’IA soit possible avec une seule caméra mobile à l’avenir. À cette fin, la FIFA a lancé un défi d’innovation. En plus de l’ensemble de données ETH, la FIFA fournit également des séquences vidéo de matchs de football pour ce concours international de recherche, quoique – cette fois – uniquement de la caméra de radiodiffusion.
« Alors que nous partageons les données avec d’autres, cela pourrait accélérer la recherche dans ce domaine », explique Jiang. « Si les modèles qui fournissent une analyse précise avec une seule caméra un jour atteignent la même qualité que notre ensemble de données, la technologie conviendra à une utilisation généralisée. »
Jusqu’à présent, plus de 150 chercheurs du monde entier ont déjà répondu à l’annonce du concours. Eth Zurich continue également de former ses systèmes. Jiang dit: « Nous continuerons à travailler sur l’ensemble de données et à développer nous-mêmes de nouveaux modèles. »