Character.AI apresenta TalkingMachines, uma inovação na geração de vídeo AI em tempo real, utilizando modelos de difusão avançados para animação de personagens interativa e impulsionada por áudio.
A Character.AI anunciou um avanço significativo na geração de vídeo em tempo real com o lançamento do TalkingMachines, um modelo inovador de difusão autorregressiva. Esta nova tecnologia permite a criação de vídeos interativos, impulsionados por áudio, no estilo FaceTime, permitindo que os personagens conversem em tempo real em vários estilos e géneros, conforme reportado pelo Blog da Character.AI.
Revolucionando a Geração de Vídeo
TalkingMachines baseia-se no trabalho anterior da Character.AI, AvatarFX, que potencia a geração de vídeo na sua plataforma. Este novo modelo estabelece o cenário para interações visuais imersivas e em tempo real, impulsionadas por IA, e personagens animados. Ao utilizar apenas uma imagem e um sinal de voz, o modelo pode gerar conteúdo de vídeo dinâmico, abrindo novas possibilidades para entretenimento e media interativa.
A Tecnologia Por Trás das TalkingMachines
O modelo aproveita a arquitetura Diffusion Transformer (DiT), utilizando um método conhecido como destilação de conhecimento assimétrica. Esta abordagem transforma um modelo de vídeo bidirecional de alta qualidade em um gerador rápido e em tempo real. As principais características incluem:
Difusão com Fluxo Correspondente: Pré-treinada para gerenciar padrões de movimento complexos, desde expressões sutis a gestos dinâmicos.
Atenção Cruzada Driven por Áudio: Um módulo de áudio de 1,2B de parâmetros que alinha som e movimento de forma intrincada.
Atenção Causal Esparsa: Reduz a memória e a latência ao se concentrar em quadros passados relevantes.
Destilação Assimétrica: Utiliza um modelo de difusão rápido em duas etapas para geração de comprimento infinito sem perda de qualidade.
Implicações para o Futuro
Este avanço vai além da animação facial, abrindo caminho para personagens de IA audiovisuais interativos. Suporta uma ampla gama de estilos, desde fotorealistas a anime e avatares 3D, e está preparado para melhorar a transmissão com fases de fala e escuta naturais. Esta tecnologia estabelece as bases para interpretação de papéis, narração de histórias e construção de mundos interativos.
Avanço das Capacidades de IA
A pesquisa da Character.AI marca vários avanços, incluindo geração em tempo real, destilação eficiente e alta escalabilidade, com operações capazes de rodar em apenas duas GPUs. O sistema também suporta interações com múltiplos falantes, permitindo diálogos de personagens sem costura.
Perspectivas Futuras
Embora ainda não seja um lançamento de produto, este desenvolvimento é um marco crítico no roteiro da Character.AI. A empresa está trabalhando para integrar esta tecnologia em sua plataforma, com o objetivo de permitir experiências semelhantes ao FaceTime, streaming de personagens e construção de mundos visuais. O objetivo final é democratizar a criação e a interação com personagens audiovisuais imersivos.
A Character.AI investiu pesadamente em infraestrutura de treinamento e design de sistemas, utilizando mais de 1,5 milhão de clipes de vídeo curados e um pipeline de treinamento em três etapas. Esta abordagem exemplifica a precisão e o propósito da pesquisa de ponta em tecnologia de IA.
Fonte da imagem: Shutterstock
Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Character.AI revela tecnologia de vídeo AI em tempo real com TalkingMachines
Rebeca Moen
04 Jul 2025 04:27
Character.AI apresenta TalkingMachines, uma inovação na geração de vídeo AI em tempo real, utilizando modelos de difusão avançados para animação de personagens interativa e impulsionada por áudio.
A Character.AI anunciou um avanço significativo na geração de vídeo em tempo real com o lançamento do TalkingMachines, um modelo inovador de difusão autorregressiva. Esta nova tecnologia permite a criação de vídeos interativos, impulsionados por áudio, no estilo FaceTime, permitindo que os personagens conversem em tempo real em vários estilos e géneros, conforme reportado pelo Blog da Character.AI.
Revolucionando a Geração de Vídeo
TalkingMachines baseia-se no trabalho anterior da Character.AI, AvatarFX, que potencia a geração de vídeo na sua plataforma. Este novo modelo estabelece o cenário para interações visuais imersivas e em tempo real, impulsionadas por IA, e personagens animados. Ao utilizar apenas uma imagem e um sinal de voz, o modelo pode gerar conteúdo de vídeo dinâmico, abrindo novas possibilidades para entretenimento e media interativa.
A Tecnologia Por Trás das TalkingMachines
O modelo aproveita a arquitetura Diffusion Transformer (DiT), utilizando um método conhecido como destilação de conhecimento assimétrica. Esta abordagem transforma um modelo de vídeo bidirecional de alta qualidade em um gerador rápido e em tempo real. As principais características incluem:
Implicações para o Futuro
Este avanço vai além da animação facial, abrindo caminho para personagens de IA audiovisuais interativos. Suporta uma ampla gama de estilos, desde fotorealistas a anime e avatares 3D, e está preparado para melhorar a transmissão com fases de fala e escuta naturais. Esta tecnologia estabelece as bases para interpretação de papéis, narração de histórias e construção de mundos interativos.
Avanço das Capacidades de IA
A pesquisa da Character.AI marca vários avanços, incluindo geração em tempo real, destilação eficiente e alta escalabilidade, com operações capazes de rodar em apenas duas GPUs. O sistema também suporta interações com múltiplos falantes, permitindo diálogos de personagens sem costura.
Perspectivas Futuras
Embora ainda não seja um lançamento de produto, este desenvolvimento é um marco crítico no roteiro da Character.AI. A empresa está trabalhando para integrar esta tecnologia em sua plataforma, com o objetivo de permitir experiências semelhantes ao FaceTime, streaming de personagens e construção de mundos visuais. O objetivo final é democratizar a criação e a interação com personagens audiovisuais imersivos.
A Character.AI investiu pesadamente em infraestrutura de treinamento e design de sistemas, utilizando mais de 1,5 milhão de clipes de vídeo curados e um pipeline de treinamento em três etapas. Esta abordagem exemplifica a precisão e o propósito da pesquisa de ponta em tecnologia de IA.
Fonte da imagem: Shutterstock