Vedi tutti

Comment Kling a battu Sora dans cette course à l'IA

Leur nouveau modèle text-to-video pourrait bien révolutionner l'industrie cinématographique

Comment Kling a battu Sora dans cette course à l'IA Leur nouveau modèle text-to-video pourrait bien révolutionner l'industrie cinématographique

En février dernier, OpenAI a révélé Sora, un modèle à la manière de CHATGPT, sauf qu’avec celui-ci, le prompt demandé sera capable de générer des vidéos très réalistes d'une minute, surpassant les modèles précédents qui se limitaient à quelques secondes. C’est alors qu’en mai, lors de la conférence Google I/O 2024, Google nous dévoile VEO, étendant les capacités de génération vidéo de Sora à plus d’une minute. Aujourd’hui, ces deux modèles encore indisponibles au public, doivent compter avec eux un sérieux concurrent : Kling, développé par Kuaishou Technology, qui promet des vidéos de deux minutes.

Kuaishou, principalement connu pour sa plateforme de partage de vidéos courtes, a rapidement gagné en popularité depuis son lancement en 2011, devenant le deuxième réseau social en Chine derrière TikTok et s’imposant aussi à l’international sous le nom de Kwai. Cette application, offrant une grande variété de contenus, allant des vidéos de divertissement aux tutoriels, en passant par les vlogs personnels, a en parallèle renforcé sa stratégie d’IA. Elle a présenté en août 2023 sa famille de LLM KwaiYii et plus récemment son modèle texte-image Kolors, similaire à Dall-E de leur concurrent OpenAI. Kling, leur dernière innovation, actuellement en phase d’essai, permet de convertir du texte en vidéo de deux minutes avec une résolution de 1080p et une fréquence de 30 images par seconde, grâce, selon la société, « à une infrastructure d’entraînement efficace, une optimisation extrême de l’inférence et une infrastructure évolutive ». Mais le modèle se démarque également par sa flexibilité quant aux formats de sortie : entraîné pour une résolution variable, l’application permet de générer des vidéos dans divers formats Largeur/Hauteur, s'adaptant ainsi à différents besoins de mise en scène et de diffusion.

Kling, tout comme Sora, utilise un mécanisme avancé d'attention spatio-temporelle 3D et un modèle de diffusion de type transformer. Permettant de modéliser des mouvements complexes. Sa technologie de reconstruction 3D du visage et du corps humain (3D VAE) améliore l’expression faciale et corporelle à partir d’une seule image. Permettant à ses utilisateurs d’animer leur modèle 3D en contrôlant finement ses expressions et ses mouvements, comme pour le faire danser ou chanter. Des modèles comme Kling pourraient bien transformer l’industrie cinématographique, comme en témoigne la projection prochaine des « Sora Shorts », une série de courts métrages créés avec Sora, au Tribeca Film Festival, démontrant ainsi le potentiel révolutionnaire de ces technologies dans le 7ème art. On peut se demander si le cinéma, dans quelques décennies, aura encore besoin d’acteurs.