Character.AI présente TalkingMachines, une avancée dans la génération vidéo IA en temps réel, utilisant des modèles de diffusion avancés pour l'animation de personnages interactive et audio-guidée.
Character.AI a annoncé une avancée significative dans la génération de vidéos en temps réel avec le lancement de TalkingMachines, un modèle de diffusion autoregressif innovant. Cette nouvelle technologie permet la création de vidéos interactives, audio-driven, de style FaceTime, permettant aux personnages de converser en temps réel à travers divers styles et genres, comme rapporté par le blog de Character.AI.
Révolutionner la génération de vidéos
TalkingMachines s'appuie sur le travail précédent de Character.AI, AvatarFX, qui alimente la génération vidéo sur leur plateforme. Ce nouveau modèle prépare le terrain pour des interactions visuelles immersives en temps réel et des personnages animés alimentés par l'IA. En utilisant simplement une image et un signal vocal, le modèle peut générer un contenu vidéo dynamique, ouvrant de nouvelles possibilités pour le divertissement et les médias interactifs.
La technologie derrière TalkingMachines
Le modèle s'appuie sur l'architecture Diffusion Transformer (DiT), utilisant une méthode connue sous le nom de distillation de connaissances asymétrique. Cette approche transforme un modèle vidéo bidirectionnel de haute qualité en un générateur rapide et en temps réel. Les caractéristiques clés incluent :
Diffusion à Flux Correspondant : Préentraîné pour gérer des motifs de mouvement complexes, des expressions subtiles aux gestes dynamiques.
Attention Croisée Audio-Dirigée : Un module audio de 1,2 milliard de paramètres qui aligne le son et le mouvement de manière complexe.
Attention causale sparse : Réduit la mémoire et la latence en se concentrant sur les images passées pertinentes.
Distillation Asymétrique : Emploie un modèle de diffusion rapide en deux étapes pour une génération de longueur infinie sans perte de qualité.
Implications pour l'avenir
Cette percée va au-delà de l'animation faciale, ouvrant la voie à des personnages IA audiovisuels interactifs. Elle prend en charge une large gamme de styles, allant du photoréaliste à l'anime et aux avatars 3D, et est prête à améliorer le streaming avec des phases de parole et d'écoute naturelles. Cette technologie jette les bases du jeu de rôle, de la narration et de la construction de mondes interactifs.
Avancement des capacités de l'IA
La recherche de Character.AI marque plusieurs avancées, y compris la génération en temps réel, la distillation efficace et une grande évolutivité, avec des opérations pouvant fonctionner sur seulement deux GPU. Le système prend également en charge les interactions multispeakers, permettant des dialogues de personnages fluides.
Perspectives futures
Bien qu'il ne s'agisse pas encore d'un lancement de produit, ce développement est une étape cruciale dans la feuille de route de Character.AI. L'entreprise travaille à l'intégration de cette technologie dans sa plateforme, visant à permettre des expériences similaires à FaceTime, le streaming de personnages et la création de mondes visuels. L'objectif ultime est de démocratiser la création et l'interaction avec des personnages audiovisuels immersifs.
Character.AI a investi massivement dans l'infrastructure de formation et la conception de systèmes, en utilisant plus de 1,5 million de clips vidéo sélectionnés et un pipeline de formation en trois étapes. Cette approche illustre la précision et l'objectif de la recherche de pointe dans la technologie de l'IA.
Source de l'image : Shutterstock
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Character.AI dévoile une technologie vidéo AI en temps réel avec TalkingMachines
Rebeca Moen
04 juil. 2025 04:27
Character.AI présente TalkingMachines, une avancée dans la génération vidéo IA en temps réel, utilisant des modèles de diffusion avancés pour l'animation de personnages interactive et audio-guidée.
Character.AI a annoncé une avancée significative dans la génération de vidéos en temps réel avec le lancement de TalkingMachines, un modèle de diffusion autoregressif innovant. Cette nouvelle technologie permet la création de vidéos interactives, audio-driven, de style FaceTime, permettant aux personnages de converser en temps réel à travers divers styles et genres, comme rapporté par le blog de Character.AI.
Révolutionner la génération de vidéos
TalkingMachines s'appuie sur le travail précédent de Character.AI, AvatarFX, qui alimente la génération vidéo sur leur plateforme. Ce nouveau modèle prépare le terrain pour des interactions visuelles immersives en temps réel et des personnages animés alimentés par l'IA. En utilisant simplement une image et un signal vocal, le modèle peut générer un contenu vidéo dynamique, ouvrant de nouvelles possibilités pour le divertissement et les médias interactifs.
La technologie derrière TalkingMachines
Le modèle s'appuie sur l'architecture Diffusion Transformer (DiT), utilisant une méthode connue sous le nom de distillation de connaissances asymétrique. Cette approche transforme un modèle vidéo bidirectionnel de haute qualité en un générateur rapide et en temps réel. Les caractéristiques clés incluent :
Implications pour l'avenir
Cette percée va au-delà de l'animation faciale, ouvrant la voie à des personnages IA audiovisuels interactifs. Elle prend en charge une large gamme de styles, allant du photoréaliste à l'anime et aux avatars 3D, et est prête à améliorer le streaming avec des phases de parole et d'écoute naturelles. Cette technologie jette les bases du jeu de rôle, de la narration et de la construction de mondes interactifs.
Avancement des capacités de l'IA
La recherche de Character.AI marque plusieurs avancées, y compris la génération en temps réel, la distillation efficace et une grande évolutivité, avec des opérations pouvant fonctionner sur seulement deux GPU. Le système prend également en charge les interactions multispeakers, permettant des dialogues de personnages fluides.
Perspectives futures
Bien qu'il ne s'agisse pas encore d'un lancement de produit, ce développement est une étape cruciale dans la feuille de route de Character.AI. L'entreprise travaille à l'intégration de cette technologie dans sa plateforme, visant à permettre des expériences similaires à FaceTime, le streaming de personnages et la création de mondes visuels. L'objectif ultime est de démocratiser la création et l'interaction avec des personnages audiovisuels immersifs.
Character.AI a investi massivement dans l'infrastructure de formation et la conception de systèmes, en utilisant plus de 1,5 million de clips vidéo sélectionnés et un pipeline de formation en trois étapes. Cette approche illustre la précision et l'objectif de la recherche de pointe dans la technologie de l'IA.
Source de l'image : Shutterstock