Un changement de paradigme en criminalistique numérique
Par Jeremy Gob, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, Dfki
À l’ère numérique, la récupération des données supprimées est un défi clé de la criminalistique numérique. Avec l’augmentation constante des volumes de données et des méthodes de stockage, les méthodes conventionnelles atteignent leurs limites. C’est là que le projet de recherche CARVE-DL se trouve: une solution basée sur l’IA qui peut récupérer des fichiers difficiles à reconstruire par l’utilisation d’algorithmes d’apprentissage pour améliorer durablement l’efficacité et la précision de la reconstruction des données numériques.
Traditionnellement, les examinateurs médico-légaux utilisent des processus standardisés et souvent manuels pour récupérer les données supprimées. Bien que ces méthodes reposent sur des signatures de fichiers fixes ou des métadonnées du système de fichiers, la CARVE-DL innove. En utilisant des technologies avancées d’apprentissage en profondeur, en particulier SWIN Transformer V2 et Resnet, le logiciel peut non seulement récupérer des fichiers complets, mais également reconstruire des données très fragmentées. Cela permet une récupération précise même dans les cas où les techniques traditionnelles s’avèrent insuffisantes.
Carve-DL s’adresse aux spécialistes de la criminalistique numérique qui doivent reconstruire des données supprimées ou fragmentées. Un exemple est la récupération des données de cache supprimées automatiquement des sites Web qui sont pertinents pour une enquête. Les preuves numériques manipulées ou délibérément détruites peuvent également être reconstruites à l’aide de l’IA.
Étude de cas: la disparition de la Mona Lisa
La vidéo qui l’accompagne utilise une histoire de crime fictif pour montrer comment la sculpture-DL peut reconstruire les données d’image supprimées. Dans le scénario fictif, la Mona Lisa est volée et toutes les traces numériques du crime sont supprimées. La vidéo illustre comment Carve-DL reconstruit l’enregistrement original de la peinture volée à partir de données de mémoire fragmentées du voleur, permettant ainsi une analyse médico-légale.
Cet exemple est destiné à illustrer les avantages pratiques des méthodes d’IA développées: le système peut identifier, classer, regrouper et organiser correctement les fragments d’image supprimés – un processus qui peut également être crucial pour de véritables preuves numériques. L’ensemble de la vidéo se trouve dans l’attachement à cette nouvelle.
Jalons technologiques
Depuis le coup d’envoi du projet en novembre 2022, des progrès importants ont été réalisés. Le flux de travail AI a été continuellement optimisé pour répondre de manière compétente sur les exigences complexes de la criminalistique numérique et de la reconstruction des données:
- Modèle de classification: nouveaux modèles de classification pour identifier les types de fichiers dans les données brutes, ce qui améliore le processus de récupération.
- Modèle de vérification: un modèle de vérification spécialisé pour reconstruire de manière fiable les fragments d’image.
- Techniques de clustering: techniques de clustering basées sur l’apprentissage en profondeur qui identifient efficacement des groupes de fragments de fichiers qui appartiennent ensemble.
- Modèle de réorganisation: un modèle avancé de réorganisation des fragments qui assemble déjà correctement 95% des fragments d’image reconstruits.
L’utilisation de Swin Transformer V2 et Resnet a considérablement augmenté l’efficacité du système. En particulier, le regroupement de soutien avec apprentissage contrastif (SCCL) a augmenté la précision du regroupement à environ 85%.
Défis et solutions innovantes
L’un des plus grands défis du projet a été le nombre indéterminé et la nature des fragments à reconstruire. Carve-DL a résolu ce problème en traitant cette incertitude au début du pipeline par le clustering itératif.
Un autre problème était la réorganisation évolutive et efficace des fragments. Pour résoudre ces problèmes, une combinaison de traitement du signal numérique et d’approximation de faible rang (LORA) a été intégrée afin d’utiliser plus efficacement les ressources informatiques.
Potentiel au-delà de la médecine légale
En plus des enquêtes policières, la CARVE-DL montre un potentiel prometteur pour d’autres domaines de la demande:
- Récupération des données dans l’industrie, par exemple pour restaurer les données de recherche perdues.
- Restauration et archivage numériques, par exemple dans la préservation des documents historiques.
- Cybersécurité, pour analyser la manipulation ou la suppression ciblée des données.
Avec le projet CARVE-DL qui devrait se terminer en octobre 2025, l’équipe de recherche établit un équilibre positif. Les technologies développées montrent que la reconstruction de données basée sur l’IA peut révolutionner la criminalistique numérique. Grâce à des méthodes innovantes, il est possible de récupérer des données supprimées ou fragmentées avec une précision sans précédent.
Fourni par Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, DFKI