Quelle quantité de données est suffisante pour l’IA ?
Les progrès récents dans les grands modèles linguistiques (LLM) sont fascinants. Nous avons déjà vu des LLM passer des examens de droit1médical2 et écoles de commerce3, ainsi que la rédaction d’articles scientifiques, de blogs, la recherche de bogues dans le code et la composition de poèmes. Pour certains, en particulier pour ceux qui ne surveillent pas de près le terrain, cela peut sembler magique. Cependant, ce qui est vraiment magique, c’est la façon dont ces technologies sont capables d’exciter et d’inspirer les gens avec émerveillement et curiosité pour l’avenir.
L’une des contributions les plus importantes à ces progrès est la disponibilité de grandes quantités de données ainsi que des technologies pour les stocker et les traiter. Cela permet aux entreprises de tirer parti de ces technologies pour effectuer des analyses complexes, utiliser les données pour la formation de modèles et offrir un réel avantage concurrentiel sur les startups et les entreprises entrant dans leur domaine.
Cependant, même avec des avantages évidents, les technologies du Big Data présentent des défis qui ne sont pas toujours évidents lorsque vous vous lancez dans votre voyage pour extraire la valeur des données à l’aide de l’IA.
Le stockage de données est relativement bon marché de nos jours. La concurrence entre les fournisseurs de cloud a fait baisser le coût du stockage des données tout en rendant les données plus accessibles aux systèmes informatiques distribués. Mais les technologies permettant de stocker des quantités toujours croissantes de données n’ont pas réduit la charge de travail nécessaire pour maintenir et améliorer la qualité des données. Selon les recherches, 96 % des entreprises rencontrent des problèmes de qualité des données, 33 % des projets échoués sont bloqués en raison de problèmes de données, tandis que seulement 4 % des entreprises n’ont rencontré aucun problème de données de formation, et la situation ne devrait pas beaucoup changer dans le futur proche.4
Réduire les ensembles de données pour réduire le problème
Dans les applications du monde réel, les ensembles de données complets sont rarement utilisés dans leur intégralité. Dans certains cas, la quantité de données traitées pour une application est inférieure à la taille totale des données, car seules les données très récentes comptent ; dans d’autres, les données doivent être agrégées avant le traitement et les données brutes ne sont plus nécessaires.
Lorsque Simseo aidait HHS avec les essais de vaccins COVID-19 pendant la pandémie en fournissant des prévisions de paramètres socio-économiques, nous avons collecté plus de 200 ensembles de données avec un volume total de plus de 10 To, mais les prévisions quotidiennes n’en nécessitaient qu’une fraction. Au lieu de cela, des tailles d’ensembles de données plus petites nous ont permis d’utiliser une analyse de données plus rapide, où le délai d’exécution était critique pour la prise de décision. Cela nous a permis d’éviter des systèmes distribués dont l’utilisation aurait été coûteuse et dont la maintenance nécessiterait plus de ressources.
La visualisation de l’entrepôt de données du projet COVID. Un sommet est un jeu de données, une arête est une colonne. La taille relative d’un sommet correspond à une taille de jeu de données. La couleur correspond à un type de données de colonne. La taille moyenne de l’ensemble de données de travail est d’environ ~10 Mo. Des outils plus simples nous ont permis de commencer à collecter et à conserver les données plus rapidement.
Le sous-échantillonnage est également une technique efficace qui permet de réduire la taille des données sans perte de précision dans de nombreux cas, en particulier pour les analyses complexes qui ne peuvent pas être facilement poussées jusqu’à la source de données. Parfois (en particulier lorsqu’un ensemble de données n’est pas matérialisé), il est tout simplement inutile d’exécuter la détection sur une colonne entière de données, et il est logique d’échantillonner intelligemment une colonne et d’exécuter un algorithme de détection sur un échantillon. Une partie de notre objectif chez Simseo est de permettre les meilleures pratiques qui non seulement obtiennent les meilleurs résultats, mais aussi le font de la manière la plus efficace. Cependant, tous les prélèvements ne sont pas identiques. Simseo vous permet d’effectuer un échantillonnage intelligent, ce qui permet de conserver automatiquement les échantillons rares et d’activer l’échantillon le plus représentatif possible. Avec un échantillonnage intelligent, Simseo modifie intentionnellement la proportion des différentes classes. Ceci est fait pour équilibrer les classes, comme en cas de problèmes de classification, ou pour supprimer des valeurs fréquemment répétées, comme dans le cas d’une régression gonflée à zéro.
Il ne faut pas oublier les progrès du matériel ces dernières années. Aujourd’hui, une seule machine est capable de traiter plus de données plus rapidement grâce aux améliorations de la RAM, des processeurs et des SSD qui réduisent le besoin de systèmes distribués pour le traitement des données. Cela conduit à une complexité et des coûts de maintenance réduits et à une pile logicielle plus simple et plus accessible qui nous permet d’itérer et d’obtenir de la valeur plus rapidement. Notre plateforme d’intelligence décisionnelle COVID-19 a été construite sans utiliser d’approches Big Data établies, malgré des tailles de données suffisamment importantes, et ne pas les utiliser a permis à nos data scientists d’utiliser des outils familiers et d’obtenir des résultats plus rapidement.
De plus, la collecte et le stockage des données des clients peuvent être considérés comme une responsabilité d’un point de vue juridique. Il existe des réglementations en place (GDPR et al), et des risques de violations et de fuites de données. Certaines entreprises choisissent même de ne pas stocker de données brutes, mais utilisent des techniques telles que la confidentialité différentielle5 et stocker uniquement des données agrégées. Dans ce cas, il y a une garantie que les contributions individuelles aux agrégats sont protégées et que le traitement ultérieur en aval n’affecte pas de manière significative la précision. Chez Simseo, nous utilisons cette approche dans les cas où nous devons agréger des données potentiellement sensibles avant l’ingestion côté client et également pour anonymiser l’index de recherche tout en créant un système de recommandation en interne.
La taille n’a pas toujours d’importance
Bien que le fait de disposer de grands ensembles de données et d’une infrastructure mature pour les traiter et les exploiter puisse constituer un avantage majeur, il n’est pas toujours nécessaire de libérer de la valeur avec l’IA. En fait, de grands ensembles de données peuvent ralentir le cycle de vie de l’IA et ne sont pas nécessaires si des techniques ML éprouvées, associées au bon matériel, sont appliquées dans le processus. Dans ce contexte, il est important que les organisations comprennent les paramètres qualitatifs des données qu’elles possèdent, car une pile d’IA moderne peut gérer le manque de quantité mais ne sera jamais équipée pour gérer le manque de qualité de ces données.
1 Illinois Institute of Technology, GPT-4 réussit l’examen du barreau
2 MedPage aujourd’hui, AI réussit l’examen de licence médicale aux États-Unis
3 CNN et ChatGPT réussissent les examens des écoles de droit et de commerce
4 Les projets de recherche dimensionnelle, d’intelligence artificielle et d’apprentissage automatique sont entravés par des problèmes de données
5 Wikipédia, confidentialité différentielle