Les modèles d’apprentissage automatique identifient les applications susceptibles d’enfreindre les directives de la boutique Google Play
Un pourcentage considérable de nouvelles applications dans le Google App Store sont supprimées pour avoir enfreint les directives du magasin. Cela n’est pas pratique pour les utilisateurs de ces applications, qui peuvent perdre leurs données intégrées à l’application. Des informaticiens de l’Université de Groningue ont mis au point deux modèles d’apprentissage automatique capables de prédire les risques de suppression d’une nouvelle application, à la fois avant et après son téléchargement sur l’App Store. Ces modèles peuvent aider à la fois les développeurs et les utilisateurs. Les détails de ce projet sont décrits dans un article publié dans la revue Systèmes et Soft Computing le 29 septembre.
La boutique Google Play a défini des règles et des exigences auxquelles les développeurs doivent se conformer. Après avoir été soumises, les applications sont immédiatement téléchargées sur le magasin, mais il faut un certain temps à Google pour les vérifier avant de supprimer les applications qui enfreignent les directives. Les développeurs dont les applications ont été supprimées plus d’une fois peuvent être bannis du magasin.
« Mes intérêts de recherche portent sur les questions de confidentialité et de sécurité numériques », déclare Fadi Mohsen, professeur adjoint au groupe des systèmes d’information de l’Institut Bernoulli de mathématiques, d’informatique et d’intelligence artificielle de l’Université de Groningue. Compte tenu des conséquences de la suppression d’applications pour les développeurs et les utilisateurs, il souhaitait créer un système capable de prédire si de nouvelles applications seront supprimées ou non.
« Il y a déjà eu des tentatives pour le faire, mais celles-ci se concentrent généralement sur des types spécifiques d’applications qui ont été supprimées pour des raisons spécifiques, par exemple parce qu’elles contenaient des logiciels malveillants », explique Mohsen. « Nous voulions développer un modèle général qui prédit les chances qu’une application soit supprimée, quel que soit le type d’application ou la raison de la suppression. » De plus, les tentatives précédentes se concentraient uniquement sur les utilisateurs, tandis que Mohsen souhaite également aider les développeurs qui viennent de tomber accidentellement enfreint les directives.
La première étape consistait à rassembler un grand ensemble de données à partir d’applications qui ont été supprimées et d’applications qui n’ont pas été supprimées : « Nous avons collecté des métadonnées, y compris les descriptions fournies par les développeurs au magasin, à partir d’environ deux millions d’applications. Après cela, nous avons téléchargé le code source de la moitié de ces applications. »
Par la suite, Mohsen et ses collègues ont suivi l’état de ces applications dans le magasin pendant six mois pour voir quelles applications ont été supprimées. « Dans notre sélection, c’était le cas pour 56 % d’entre eux. » Il leur a fallu 26 mois pour finaliser l’ensemble de données utilisé pour générer les modèles d’apprentissage automatique.
L’algorithme qu’ils ont utilisé s’appelle Extreme Gradient Boosting. « C’est le meilleur algorithme d’apprentissage automatique pour ce genre de problèmes », explique Mohsen. L’algorithme a été utilisé pour créer deux modèles prédictifs : un pour les développeurs et un pour les utilisateurs. Le modèle pour les utilisateurs a été déterminé par 47 fonctionnalités et, dans un ensemble de données de test, il a prédit la suppression d’une application donnée avec une précision de 79,2 %. Comme certaines de ces fonctionnalités, comme les évaluations dans l’App Store, ne sont pas disponibles avant de soumettre l’application au magasin, le modèle de développeur était basé sur seulement 37 fonctionnalités, et sa précision était donc légèrement inférieure : 76,2 %.
« Nous pouvons désormais prédire l’avenir d’une application avec une précision raisonnable », déclare Mohsen. La prochaine étape consiste à développer une interface avec laquelle les développeurs et les utilisateurs peuvent évaluer les applications sur leur risque de suppression. « C’est précieux pour les développeurs, car ils pourraient être bannis de l’App Store de Google s’ils enfreignent les directives à plusieurs reprises », déclare Mohsen, « mais aussi pour les utilisateurs, car ils génèrent des données avec leurs applications, qu’ils perdront si l’application est tout à coup retiré. »
D’autres chercheurs bénéficieront également de cette recherche. « Le riche ensemble de données que nous avons généré pour notre article a été mis à la disposition du public via le référentiel néerlandais Dataverse.nl », déclare Mohsen. Cela signifie que n’importe qui peut essayer d’améliorer les résultats obtenus par Mohsen et ses collègues. « Nous attendons avec impatience la compétition, pour savoir s’ils peuvent nous battre. Cela augmenterait encore les avantages pour les utilisateurs et les développeurs. »