Déballage Deepseek - Distillation, éthique et sécurité nationale

Étant donné que la startup de l’IA chinoise Deepseek a publié son puissant modèle de grande langue R1, il a envoyé des ondulations via la Silicon Valley et le marché boursier américain, suscitant une discussion et un débat généralisés.

Ambuj Tewari, professeur de statistiques à l’Université du Michigan et un expert de premier plan en intelligence artificielle et en apprentissage automatique partage ses idées sur les aspects techniques, éthiques et liés au marché de la percée de Deepseek.

OpenAI a accusé Deepseek d’utiliser la distillation du modèle pour former ses propres modèles en fonction de la technologie d’Openai. Pouvez-vous expliquer comment fonctionne la distillation du modèle, et dans quelles circonstances il pourrait être considéré comme éthique ou conforme aux meilleures pratiques de développement de l’IA?

La distillation du modèle ou des connaissances implique généralement de générer des réponses à partir du modèle plus fort pour former un modèle plus faible afin que le modèle plus faible s’améliore. C’est une pratique totalement normale si le modèle plus fort a été libéré avec une licence qui permet une telle utilisation. Mais les conditions d’utilisation d’Openai de Chatgpt interdisent explicitement l’utilisation de leur modèle à des fins telles que la distillation du modèle.

Est-il possible que Deepseek ait utilisé d’autres modèles open source, tels que le lama de Meta Platforms ou le QWEN d’Alibaba, pour la distillation des connaissances, plutôt que de compter sur les modèles propriétaires d’Openai?

C’est difficile à dire. Même dans la même famille de modèles, disons Llama ou Qwen, tous les modèles ne sont pas publiés avec la même licence. Si la licence d’un modèle permet la distillation du modèle, il n’y a rien d’illégal ou de contraire à l’éthique à le faire. Dans l’article R1, il est mentionné que le processus a réellement fonctionné dans la direction opposée: la connaissance a été distillée de R1 à Llama et Qwen pour améliorer les capacités de raisonnement de ces derniers modèles.

Quelles preuves une entreprise d’IA pourrait-elle fournir pour démontrer que ses modèles ont été développés indépendamment, sans s’appuyer sur la technologie propriétaire d’une autre organisation?

Puisqu’il y a la présomption d’innocence en matière juridique, la charge de la preuve sera sur OpenAI pour prouver que Deepseek a en fait violé leurs conditions d’utilisation. Étant donné que seul le modèle final développé par Deepseek est public et non ses données de formation, il pourrait être difficile de prouver l’accusation. Étant donné qu’Openai n’a pas encore rendu ses preuves publiques, il est difficile de dire à quel point ils ont un cas.

Y a-t-il des normes de l’industrie ou des mesures de transparence que les entreprises d’IA pourraient adopter pour renforcer la confiance et démontrer le respect du développement éthique de l’IA?

Il existe actuellement peu de normes universellement acceptées sur le développement de modèles d’IA par les entreprises. Les partisans des modèles ouverts disent que l’ouverture conduit à plus de transparence. Mais l’ouverture des poids du modèle n’est pas la même que la création de tout le processus de la collecte de données à l’ouverture de la formation. Il existe également des inquiétudes quant à savoir si l’utilisation du matériel protégé par le droit d’auteur tel que les livres pour la formation des modèles d’IA est une utilisation équitable ou non. Un exemple de premier plan est le procès intenté par le New York Times contre Openai, qui met en évidence les débats juridiques et éthiques entourant cette question.

Il y a des questions concernant les biais sociaux dans les données de formation affectant la sortie du modèle. Il y a également des préoccupations concernant l’augmentation des besoins énergétiques et son implication pour le changement climatique. La plupart de ces questions sont activement débattues avec peu de consensus.

Certains responsables américains ont exprimé leurs préoccupations sur le fait que Deepseek pourrait présenter des risques de sécurité nationale. Quelle est votre opinion à ce sujet?

Il serait profondément préoccupant que les données des citoyens américains soient stockées sur les serveurs de Deepseek et que le gouvernement chinois y ait accès. Cependant, les poids du modèle sont ouverts et donc il peut être exécuté sur des serveurs appartenant à des sociétés américaines. En fait, Microsoft a déjà commencé à héberger les modèles de Deepseek.