Character.AI presenta TalkingMachines, un avance en la generación de video AI en tiempo real, utilizando modelos de difusión avanzados para la animación de personajes interactivos impulsada por audio.
Character.AI ha anunciado un avance significativo en la generación de videos en tiempo real con la presentación de TalkingMachines, un innovador modelo de difusión autorregresivo. Esta nueva tecnología permite la creación de videos interactivos impulsados por audio, al estilo de FaceTime, permitiendo que los personajes conversen en tiempo real a través de varios estilos y géneros, según informa el blog de Character.AI.
Revolucionando la Generación de Video
TalkingMachines se basa en el trabajo previo de Character.AI, AvatarFX, que impulsa la generación de video en su plataforma. Este nuevo modelo establece el escenario para interacciones visuales inmersivas y en tiempo real impulsadas por IA y personajes animados. Al utilizar solo una imagen y una señal de voz, el modelo puede generar contenido de video dinámico, abriendo nuevas posibilidades para el entretenimiento y los medios interactivos.
La tecnología detrás de TalkingMachines
El modelo aprovecha la arquitectura Diffusion Transformer (DiT), utilizando un método conocido como destilación de conocimientos asimétrica. Este enfoque transforma un modelo de video bidireccional de alta calidad en un generador rápido y en tiempo real. Las características clave incluyen:
Difusión Coincidente por Flujo: Preentrenado para gestionar patrones de movimiento complejos, desde expresiones sutiles hasta gestos dinámicos.
Atención Cruzada Impulsada por Audio: Un módulo de audio de 1.2B de parámetros que alinea el sonido y el movimiento de manera intrincada.
Atención Causal Dispersa: Reduce la memoria y la latencia al centrarse en los fotogramas pasados relevantes.
Destilación Asimétrica: Emplea un modelo de difusión rápido y de dos pasos para la generación de longitud infinita sin pérdida de calidad.
Implicaciones para el Futuro
Este avance va más allá de la animación facial, allanando el camino para personajes de IA audiovisuales interactivos. Soporta una amplia gama de estilos, desde fotorealistas hasta anime y avatares 3D, y está listo para mejorar la transmisión con fases de habla y escucha naturales. Esta tecnología sienta las bases para el juego de roles, la narración de historias y la construcción de mundos interactivos.
Avanzando las capacidades de IA
La investigación de Character.AI marca varios avances, incluyendo generación en tiempo real, destilación eficiente y alta escalabilidad, con operaciones capaces de ejecutarse en solo dos GPUs. El sistema también admite interacciones multihablantes, lo que permite diálogos de personajes sin interrupciones.
Perspectivas Futuras
Aunque aún no se ha lanzado el producto, este desarrollo es un hito crítico en la hoja de ruta de Character.AI. La empresa está trabajando para integrar esta tecnología en su plataforma, con el objetivo de habilitar experiencias similares a FaceTime, transmisión de personajes y creación de mundos visuales. El objetivo final es democratizar la creación y la interacción con personajes audiovisuales inmersivos.
Character.AI ha invertido mucho en infraestructura de entrenamiento y diseño de sistemas, utilizando más de 1.5 millones de clips de video curados y un pipeline de entrenamiento en tres etapas. Este enfoque ejemplifica la precisión y el propósito de la investigación de vanguardia en la tecnología de IA.
Fuente de la imagen: Shutterstock
Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Character.AI presenta tecnología de video AI en tiempo real con TalkingMachines
Rebeca Moen
04 de julio de 2025 04:27
Character.AI presenta TalkingMachines, un avance en la generación de video AI en tiempo real, utilizando modelos de difusión avanzados para la animación de personajes interactivos impulsada por audio.
Character.AI ha anunciado un avance significativo en la generación de videos en tiempo real con la presentación de TalkingMachines, un innovador modelo de difusión autorregresivo. Esta nueva tecnología permite la creación de videos interactivos impulsados por audio, al estilo de FaceTime, permitiendo que los personajes conversen en tiempo real a través de varios estilos y géneros, según informa el blog de Character.AI.
Revolucionando la Generación de Video
TalkingMachines se basa en el trabajo previo de Character.AI, AvatarFX, que impulsa la generación de video en su plataforma. Este nuevo modelo establece el escenario para interacciones visuales inmersivas y en tiempo real impulsadas por IA y personajes animados. Al utilizar solo una imagen y una señal de voz, el modelo puede generar contenido de video dinámico, abriendo nuevas posibilidades para el entretenimiento y los medios interactivos.
La tecnología detrás de TalkingMachines
El modelo aprovecha la arquitectura Diffusion Transformer (DiT), utilizando un método conocido como destilación de conocimientos asimétrica. Este enfoque transforma un modelo de video bidireccional de alta calidad en un generador rápido y en tiempo real. Las características clave incluyen:
Implicaciones para el Futuro
Este avance va más allá de la animación facial, allanando el camino para personajes de IA audiovisuales interactivos. Soporta una amplia gama de estilos, desde fotorealistas hasta anime y avatares 3D, y está listo para mejorar la transmisión con fases de habla y escucha naturales. Esta tecnología sienta las bases para el juego de roles, la narración de historias y la construcción de mundos interactivos.
Avanzando las capacidades de IA
La investigación de Character.AI marca varios avances, incluyendo generación en tiempo real, destilación eficiente y alta escalabilidad, con operaciones capaces de ejecutarse en solo dos GPUs. El sistema también admite interacciones multihablantes, lo que permite diálogos de personajes sin interrupciones.
Perspectivas Futuras
Aunque aún no se ha lanzado el producto, este desarrollo es un hito crítico en la hoja de ruta de Character.AI. La empresa está trabajando para integrar esta tecnología en su plataforma, con el objetivo de habilitar experiencias similares a FaceTime, transmisión de personajes y creación de mundos visuales. El objetivo final es democratizar la creación y la interacción con personajes audiovisuales inmersivos.
Character.AI ha invertido mucho en infraestructura de entrenamiento y diseño de sistemas, utilizando más de 1.5 millones de clips de video curados y un pipeline de entrenamiento en tres etapas. Este enfoque ejemplifica la precisión y el propósito de la investigación de vanguardia en la tecnología de IA.
Fuente de la imagen: Shutterstock