GRAMMY Predictions 2022 : Composer des plans DataRobot

GRAMMY Predictions 2022 : Composer des plans DataRobot

Ce blog est censé être une façon amusante de prédire la chanson et le disque de l’année pour la 64e cérémonie annuelle des GRAMMY Awards.

C’est encore cette période de l’année. Les prix GRAMMY approchent à grands pas, ce qui signifie que nous avons encore une autre opportunité de tirer parti de Simseo pour faire des prédictions amusantes sur qui remportera la chanson et le disque de l’année. L’année dernière, Billie Eilish est allée consécutivement, remportant le record de l’année pour son hit « tout ce que je voulais », et HER a remporté la chanson de l’année pour sa ballade puissante et très importante « I Can’t Breathe ». ”

Pour ceux qui n’ont pas lu les blogs précédents (2019, 2020, 2021), l’idée derrière cette tâche est de tirer parti de diverses sources de données pour chaque piste (cotes de paris, analyse audio, sentiment lyrique) pour classer ceux qui sont les plus susceptibles de remporter les prix susmentionnés. Notamment (et quelque chose que je souligne avec chaque blog), les critères de décision de la Recording Academy pour choisir les gagnants sont beaucoup plus complexes que nous ne pourrons jamais l’exprimer dans un ensemble de données tabulaires ; cependant, cet exercice annuel vise à démontrer la diversité des domaines problématiques auxquels l’apprentissage automatique peut être appliqué plutôt que de prédire correctement les gagnants, bien que cela se soit produit dans le passé. Jusqu’à présent, Simseo a prédit Chanson de l’année (2019) et Disque de l’année (2020) correctement, et le morceau gagnant est apparu dans le top trois des listes les plus probables pour la chanson de l’année (2020) et le disque de l’année (2021).

ML composable

L’été dernier, Simseo a annoncé l’ajout de Composable ML à notre plateforme AI Cloud. Cette amélioration offre aux scientifiques des données la possibilité de personnaliser Plans Simseo soit en utilisant des tâches intégrées ou du code personnalisé. Ce type de capacité a été l’un des plus (sinon la la plupart) des fonctionnalités demandées par les scientifiques des données depuis que j’ai rejoint Simseo, y compris moi-même. Compte tenu de cette nouvelle capacité, j’ai décidé de l’essayer pour la cérémonie de remise des prix de cette année.

Tout d’abord, comme je l’ai fait les années précédentes, je modélise chaque remise de prix séparément, en tirant parti Les API de modélisation de Simseo parcourir des centaines de plans. Tout au long du processus, j’effectue diverses tâches telles que la sélection des fonctionnalités (c’est-à-dire l’élimination des facteurs les moins importants), le réglage des hyperparamètres (c’est-à-dire la modification des paramètres du plan) et l’essai de différentes durées d’entraînement (c’est-à-dire la recherche du nombre optimal de précédents remises de prix pour s’entraîner). Enfin, je sélectionne le modèle Simseo qui donne les meilleurs résultats parmi les cinq dernières remises de prix (c’est-à-dire celui qui apparaît en haut du classement).

Figure 1 : Schéma directeur Simseo pour l’enregistrement de l’année

Ce qui précède montre le meilleur plan pour prédire les gagnants du record de l’année (qui, pour tous les scientifiques curieux des données ici, a un Valeur ASC de 0,8276). Dans le passé, lorsque j’ai effectué cette analyse, j’ai réussi à créer manuellement des fonctionnalités liées aux sentiments autour des paroles de la piste (par exemple, quel pourcentage de mots dans la chanson sont considérés comme profanes ? Combien de mots sont liés à des sentiments de joie? etc.). Cependant, avec l’avènement de Composable ML, j’ai maintenant accès à des tâches d’analyse de sentiment intégrées dans Simseo pour prétraiter les paroles pour moi. Par conséquent, je peux maintenant créer une version modifiée du plan comme suit :

Figure 2 : Simseo Blueprint pour l’enregistrement de l’année avec des tâches d’analyse des sentiments supplémentaires.

Avec ce plan nouvellement créé, j’ai en fait a augmenté ma valeur AUC à 0,8621 (+4%), ce qui signifie que je suis 72% plus performant que de deviner au hasard. À la lumière de cela, j’ai essayé d’ajouter le même prétraitement de texte au meilleur modèle de chanson de l’année ; cependant, cela n’a pas amélioré les performances. Cela illustre la beauté derrière Composable ML de Simseo – nous avons la liberté d’expérimenter et de recevoir une validation empirique rapide si nos ajustements fonctionnent ou non. Pour le disque de l’année, ça a marché, et pour la chanson de l’année, ça n’a pas marché (et c’est bon).

Et les pistes à surveiller sont…

Chanson de l’année 2022
Artiste Chanson Probabilité
Billie Eilish « Plus heureux que jamais » 50,82 %
Olivia Rodrigue « permis de conduire » 32,86%
Soie Sonic « Laisse la porte ouverte » 16,44 %
Record de l’année 2022
Artiste Chanson Probabilité
Olivia Rodrigue « permis de conduire » 38,83 %
Billie Eilish « Plus heureux que jamais » 26,00 %
Soie Sonic « Laisse la porte ouverte » 24,74 %
Tableau 1 : Probabilités prédites des trois pistes les plus susceptibles de remporter chaque prix.

Cette année, les modèles classent les trois mêmes titres vers le haut, avec Billie Eilish prête à remporter son deuxième prix de la chanson de l’année et Olivia Rodrigo son premier clin d’œil au disque de l’année. Cependant, il ne serait pas surprenant de voir le duo dynamique de Bruno Mars et Anderson .Paak (officiellement nommé Silk Sonic) remporter l’un ou l’autre des prix. Bien qu’elle n’ait peut-être pas la probabilité la plus élevée de remporter un record de l’année, Eilish a toujours une bonne chance. Et, si elle gagne, elle sera la première personne à remporter ce prix trois fois de suite.

Et voilà, une autre année dans les livres ! Billie Eilish entrera-t-elle encore dans l’histoire ? Rendez-vous le 3 avril pour le savoir. Pour plus d’informations sur Composable ML, visitez notre documentation accessible au public.

A lire également