Vidéo IA, la Chine devant les USA avec ByteDance et Kling

La course mondiale à l’IA ne se limite plus aux chatbots et aux modèles linguistiques. Dans la génération vidéo, qui entre de plus en plus rapidement dans la publicité, le e-commerce et le divertissement, les groupes chinois profitent de leurs concurrents américains.

C’est le point qui a émergé ces derniers jours des développeurs, des classements d’utilisation et des annonces d’entreprises : ByteDance, la société mère de TikTok, et Kuaishou, propriétaire du modèle. Klingdonnent le ton dans un segment qui nécessite beaucoup plus de puissance de calcul, plus de données propriétaires et un plus grand contrôle sur les images, l’audio, les mouvements de caméra et la cohérence visuelle.

La divergence est claire. OpenAI, Google et Anthropic restent centraux dans les grands modèles de langage et les outils d’écriture et de codage, mais en ce qui concerne la photographie vidéo, c’est différent. Le Seedance 2.0 de ByteDance, le Kling de Kuaishou et d’autres modèles chinois sont décrits par de nombreux opérateurs comme étant meilleurs pour exécuter les invites, plus stables dans les scènes rapides et plus adaptés à un usage commercial quotidien. Google conserve une position concurrentielle avec Veo 3 et les mises à jour ultérieures de Veo 3.1, mais l’avantage n’est plus américain par définition.

L’avantage vient des données vidéo courtes

Pour entraîner un modèle vidéo, de grandes quantités de texte ne suffisent pas. Nous avons besoin d’énormes archives de séquences de qualité, avec des mouvements, des visages, du son, des environnements, des changements de lumière, des gestes, des variations de montage et de style. C’est là que les groupes chinois ont construit un avantage difficile à reproduire. ByteDance contrôle TikTok et d’autres plateformes vidéo ; Kuaishou exploite l’un des plus grands écosystèmes de vidéos courtes en Chine. Ces services génèrent chaque jour une masse de données propriétaires qui peuvent être utilisées pour former des systèmes capables de reproduire la dynamique réaliste, le rythme visuel et le langage natif des plateformes sociales.

L’enjeu est à la fois économique et industriel. Le texte peut être collecté en ligne avec une relative facilité, bien qu’avec de nombreuses limitations légales. La vidéo, en revanche, est plus difficile à trouver, à étiqueter et à traiter à grande échelle. Celui qui possède les plateformes d’où proviennent ces contenus dispose dès le départ d’un avantage structurel.

Google peut compter sur YouTube, et de fait Veo 3 reste l’un de ses plus solides concurrents, mais dans la vidéo courte et le format pensé pour le social et le commerce, les groupes chinois exploitent une richesse de données plus proche des cas d’usage commerciaux qui font bouger le marché aujourd’hui.

Seedance et Kling, parce que les créateurs les aiment

Les raisons du succès ne résident pas seulement dans la quantité de données. ByteDance a officiellement lancé Seedance 2.0 le 12 février 2026, le présentant comme un modèle multimodal capable de travailler sur les entrées texte, image, audio et vidéo. La société affirme que le système offre un contrôle plus précis sur les mouvements de la caméra, l’éclairage, les ombres, l’édition et la cohérence des personnages.

Au cours des mois suivants, la technologie a également été intégrée à CapCut, le logiciel de montage que ByteDance utilise comme pont naturel vers les créateurs et les entreprises.

Kuaishou a répondu en renforçant la famille Kling. En février 2026, il a annoncé Kling AI 3.0, décrit comme un saut de la génération vidéo de base à une réalisation cinématographique plus nuancée, avec des améliorations en termes de précision narrative, de contrôle cinématographique et d’orchestration multimodale. En parallèle, dès fin 2025, l’entreprise avait présenté le Kling O1 comme un modèle unifié pour la génération, le montage et la compréhension de vidéos. En d’autres termes : non seulement créez des clips à partir de zéro, mais également éditez-les et comprenez leur structure avec un seul moteur.

Les développeurs travaillant avec ces outils signalent deux avantages pratiques. Le premier est la qualité perçue : des visages moins instables, de meilleures transitions, une synchronisation audio plus crédible, une plus grande stabilité dans les scènes rapides. La seconde est la convivialité : moins de blocages, moins de limites sur les requêtes, plus de possibilité d’expérimenter des formules par répartition ou des abonnements plus accessibles.

C’est un facteur qui pèse particulièrement sur les studios de création, les petites agences et les producteurs indépendants, qui choisissent le modèle moins pour la fidélité à la marque que pour le rapport entre coût, rapidité et rendement final.

Classements d’utilisation et problème de référence

Sur ce marché, les classements comptent, mais pas tous de la même manière. Les références construites par les laboratoires peuvent être optimisées par les mêmes entreprises qui produisent les modèles et ne reflètent pas toujours une utilisation réelle. Pour cette raison, de nombreux opérateurs prêtent attention aux classements basés sur les votes des utilisateurs ou sur des conflits directs entre modèles.

La plateforme Arena, citée par de nombreux observateurs, place Seedance, Kling et d’autres mannequins chinois en tête du classement image-vidéo. Il s’agit d’une confirmation importante, car elle mesure les préférences des utilisateurs plutôt que les performances lors des tests internes.

Cela ne veut pas dire que l’Occident est hors course. Google a poussé fort sur Veo 3, annoncé lors de l’I/O 2025, puis sur Veo 3.1 et Veo 3.1 Lite, apportant une meilleure qualité audio-vidéo, une adhésion rapide améliorée et une disponibilité également pour les développeurs via l’API Gemini à ses systèmes.

Il s’agit de la tentative la plus solide de rattraper une plate-forme plus contrôlée intégrée aux services Google. Mais l’essentiel, pour de nombreux utilisateurs, reste la combinaison entre qualité et liberté opérationnelle : et c’est là que les modèles chinois sont souvent perçus comme plus pratiques à utiliser.

Le frein américain : coûts, limites, modération

La vidéo générative coûte beaucoup plus cher que le texte. Chaque seconde de vidéo nécessite de traiter bien plus de jetons et de paramètres qu’une réponse écrite ou un fichier audio. Cela pèse sur les comptes des laboratoires et sur la disponibilité commerciale des produits. OpenAI, par exemple, a arrêté son produit Sora en tant qu’expérience autonome le 26 avril 2026 et propose son modèle vidéo sous une nouvelle forme sur sora.com, après avoir déjà lancé Sora 2 à l’automne 2025 avec des limitations liées à la capacité de calcul.

Le problème n’est pas seulement technique. Plusieurs développeurs affirment que les modèles américains rejettent plus souvent les demandes jugées limites au regard des conditions d’utilisation, sans fournir d’explications claires. Cela rend la production itérative plus difficile, qui nécessite en vidéo de nombreuses tentatives, corrections, bribes et variations. Google accorde beaucoup d’importance à la sécurité et Veo bénéficie de solides protections.

OpenAI, de son côté, a toujours insisté sur équipe rouge et précautions. Du point de vue de l’industrie, cependant, des règles plus restrictives peuvent se traduire par une expérience moins fluide que celle des concurrents qui laissent plus d’espace aux créateurs, du moins jusqu’à ce que des problèmes juridiques surviennent.

La publicité et le commerce électronique sont les véritables moteurs

La partie la plus pertinente de l’histoire ne concerne pas le cinéma expérimental ou les vidéos virales, mais la publicité. Les entreprises commencent à utiliser ces modèles pour produire du contenu personnalisé à une échelle qui, avec les équipes, les acteurs, les studios et le montage traditionnel, serait prohibitive.

Firework, une entreprise qui fournit une infrastructure vidéo pour les sites de commerce électronique, a déclaré qu’un seul détaillant avait demandé la création de 100 000 vidéos pour différentes pages de produits. Dans ce scénario, l’IA permet d’avoir une vidéo pour chaque article, avec différentes déclinaisons selon la cible, la langue, la plateforme ou le profil client.

Vous pouvez voir ici pourquoi la vidéo générative est si intéressante pour ByteDance et Kuaishou. Tous deux proviennent d’écosystèmes où le commerce numérique, le shopping en direct et le contenu court sont déjà fusionnés en un seul modèle économique. Un système capable de créer des clips promotionnels automatiquement, rapidement et à faible coût devient une extension naturelle de ces plateformes. Il ne s’agit pas seulement d’une fonction créative : c’est un élément de la chaîne d’approvisionnement publicitaire, des logiciels marchands et du marketing basé sur la performance.

L’intégration de Seedance dans CapCut doit également être lue ainsi. CapCut est l’un des principaux outils d’édition utilisés par les créateurs, les petites entreprises et les marques numériques. L’intégration d’un modèle vidéo avancé dans ce flux de travail rapproche la génération automatique de la publication, du sponsoring et de la mesure des résultats. ByteDance, essentiellement, ne se contente pas de vendre un modèle : il construit une chaîne qui part des données, passe par la création et arrive à la distribution.

Kling pourrait devenir une société distincte

Le marché accorde déjà une valeur financière à cette course. Ces derniers jours, il est apparu que Kuaishou était en train d’évaluer le spin-off de Kling, avec une augmentation pouvant atteindre 2 milliards de dollars et une valorisation qui, selon le Wall Street Journal, pourrait atteindre 20 milliards. La perspective évoquée est une cotation à Hong Kong en 2027. Si ce scénario se matérialise, ce serait l’un des signes les plus forts de la transformation de la vidéo générative d’une fonction expérimentale en une entreprise autonome avec ses propres mesures, ses revenus récurrents et ses investisseurs dédiés. (Source : Wall Street Journal)

Selon le journal américain, l’intérêt des investisseurs est également soutenu par la croissance du chiffre d’affaires récurrent de la plateforme, passé de 150 à 500 millions de dollars annualisés en quelques mois. Ces chiffres doivent être pris avec prudence, car ils reflètent une première phase de marché et ne correspondent pas à des bénéfices consolidés. Mais ils indiquent que la demande existe, notamment aux États-Unis, en Europe et au Japon, où Kling se développe comme outil de production publicitaire, sociale et audiovisuelle.

La question du droit d’auteur a déjà explosé

La partie la plus délicate reste le droit d’auteur. En février 2026, ByteDance a promis de nouvelles protections contre l’utilisation non autorisée de la propriété intellectuelle sur Seedance 2.0, après des menaces juridiques de la part des studios hollywoodiens, dont Disney. Les agences de presse et les médias internationaux ont fait état de vidéos générées avec des personnages reconnaissables et d’accusations liées à l’utilisation de contenus protégés et de similitudes avec des acteurs réels. L’Associated Press a également reçu des critiques de la part de la Motion Picture Association et de la SAG-AFTRA, le syndicat des acteurs.

Les litiges sont importants pour deux raisons.

La première est juridique : comprendre quels matériaux ont été utilisés pour la formation et quels filtres doivent empêcher la génération de personnages, de marques ou de visages sans autorisation.

Le second est industriel : si les plateformes chinoises ont fonctionné plus vite grâce également à des règles moins strictes sur le matériel de formation, l’avantage concurrentiel pourrait être remis en question par des poursuites judiciaires, des indemnisations ou des accords de licence onéreux. Jusqu’à présent, le marché a récompensé la qualité de la production. Mais le vrai jeu se jouera aussi sur les tribunaux et dans les négociations avec les studios.

La nouvelle carte AI vient de la vidéo

Pendant une bonne année, le discours dominant autour de l’IA s’est concentré sur les LLM : qui possédait le meilleur chatbot, le modèle le plus performant en matière de tests, la plus grande capacité à écrire du code. La ruée vers les vidéos déplace le centre de gravité. C’est là que l’infrastructure, les données propriétaires, les droits sur le contenu, les relations avec les créateurs et l’accès aux budgets publicitaires sont importants.

Dans ce domaine, la Chine et les États-Unis disposent de ressources différentes au départ.

Les Américains disposent d’une recherche de pointe, du cloud et de grandes plateformes.

Les Chinois disposent d’écosystèmes vidéo natifs, plus étroitement intégrés au commerce et au divertissement.

Le résultat, du moins aujourd’hui, est que la vidéo générative n’a plus de centre unique. ByteDance avance avec Seedance, Kuaishou monétise Kling, Google tente de rattraper Veo et OpenAI réorganise son offre après la fermeture du produit Sora. Pour les entreprises qui achètent de la technologie, l’enjeu n’est pas idéologique : elles choisissent le modèle qui produit de meilleurs clips, coûte moins cher, s’intègre mieux dans les flux et bloque moins de demandes. C’est une logique qui favorise ceux qui transforment l’IA en un outil opérationnel et pas seulement en démonstration technique.

Si cette tendance se poursuit, le prochain coup d’intelligence artificielle ne viendra pas du clavier mais de la chronologie. La plateforme qui contrôlera la production vidéo à grande échelle contrôlera également une part croissante de la publicité numérique, du commerce visuel et de la production de contenu commercial. La supériorité des modèles linguistiques ne suffit plus à définir qui dirige l’IA. Dans la vidéo, aujourd’hui, la Chine a réussi à ouvrir un front sur lequel les États-Unis ne sont plus en tête en raison de leur inertie.