Character.AI представила технологию видео с ИИ в реальном времени с TalkingMachines

Ребека Моэн

04 июл, 2025 04:27

Character.AI представляет TalkingMachines, прорыв в генерации AI-видео в реальном времени, использующий передовые модели диффузии для интерактивной анимации персонажей, управляемой аудио.

Character.AI объявила о значительном продвижении в генерации видео в реальном времени с представлением TalkingMachines, инновационной авторегрессивной диффузионной модели. Эта новая технология позволяет создавать интерактивные видео в стиле FaceTime с аудиоподдержкой, позволяя персонажам общаться в реальном времени в различных стилях и жанрах, как сообщается в блоге Character.AI.

Революция в генерации видео

TalkingMachines основывается на предыдущей работе Character.AI, AvatarFX, который обеспечивает генерацию видео на их платформе. Эта новая модель создает условия для погружающих, интерактивных визуальных взаимодействий и анимированных персонажей с использованием всего лишь изображения и голосового сигнала, модель может генерировать динамический видеоконтент, открывая новые возможности для развлечений и интерактивных медиа.

Технология за TalkingMachines

Модель использует архитектуру Diffusion Transformer (DiT), применяя метод, известный как асимметричная дистилляция знаний. Этот подход преобразует высококачественную двунаправленную видеомодель в быстрый генератор в реальном времени. Ключевые особенности включают:

  • Соответствующая диффузия потока: Предобучена для управления сложными движенческими паттернами, от тонких выражений до динамических жестов.
  • Аудио-Управляемое Кросс-Внимание: Модуль аудио с 1,2 миллиарда параметров, который тонко связывает звук и движение.
  • Разреженное причинное внимание: Уменьшает использование памяти и задержку, сосредотачиваясь на соответствующих прошлых кадрах.
  • Асимметричная дистилляция: Использует быструю двухступенчатую диффузионную модель для генерации бесконечной длины без потери качества.

Последствия для будущего

Этот прорыв выходит за рамки анимации лиц, прокладывая путь для интерактивных аудиовизуальных AI персонажей. Он поддерживает широкий спектр стилей, от фотореалистичного до аниме и 3D аватаров, и готов улучшить стриминг с естественными фазами говорения и слушания. Эта технология закладывает основу для ролевых игр, повествования и интерактивного создания миров.

Продвижение возможностей ИИ

Исследования Character.AI отмечают несколько достижений, включая генерацию в реальном времени, эффективную дистилляцию и высокую масштабируемость, при этом операции могут выполняться всего на двух GPU. Система также поддерживает многоголосые взаимодействия, позволяя проводить плавные диалоги персонажей.

Будущие перспективы

Хотя это еще не запуск продукта, это развитие является важной вехой в дорожной карте Character.AI. Компания работает над интеграцией этой технологии в свою платформу, стремясь обеспечить опыт, похожий на FaceTime, потоковое вещание персонажей и визуальное создание миров. Конечная цель — демократизировать создание и взаимодействие с погружающими аудиовизуальными персонажами.

Character.AI значительно инвестировала в инфраструктуру обучения и проектирование систем, используя более 1,5 миллиона отобранных видеоклипов и трехступенчатую систему обучения. Этот подход демонстрирует точность и целеустремленность передовых исследований в области технологий ИИ.

Источник изображения: Shutterstock

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить