Character.AI представляє TalkingMachines, прорив у генерації відео з використанням штучного інтелекту в реальному часі, що використовує передові дифузійні моделі для інтерактивної анімації персонажів, керованої аудіо.
Character.AI оголосила про значний прогрес у генерації відео в реальному часі з представленням TalkingMachines, інноваційної авторегресивної дифузійної моделі. Ця нова технологія дозволяє створювати інтерактивні, аудіоорієнтовані відео у стилі FaceTime, що дозволяє персонажам спілкуватися в реальному часі в різних стилях і жанрах, як повідомляє блог Character.AI.
Революція у генерації відео
TalkingMachines базується на попередній роботі Character.AI, AvatarFX, яка забезпечує генерацію відео на їхній платформі. Ця нова модель прокладає шлях для занурювальних, реальних AI-управлінських візуальних взаємодій та анімованих персонажів. Використовуючи лише зображення та аудіосигнал, модель може генерувати динамічний відеоконтент, відкриваючи нові можливості для розваг та інтерактивних медіа.
Технологія за TalkingMachines
Модель використовує архітектуру Diffusion Transformer (DiT), застосовуючи метод, відомий як асиметрична дистиляція знань. Цей підхід перетворює високоякісну, двосторонню відеомодель у швидкий, генератор в реальному часі. Ключові особливості включають:
Диффузія, що відповідає потоку: Попередньо навчена для управління складними руховими патернами, від тонких виразів до динамічних жестів.
Аудіо-орієнтована крос-увага: Модуль аудіо з 1.2 мільярда параметрів, який детально поєднує звук і рух.
Рідкісна причинно-наслідкова увага: Знижує використання пам'яті та затримки, зосереджуючись на відповідних минулих кадрах.
Асиметрична дистиляція: Використовує швидку, двоступеневу дифузійну модель для генерації нескінченної довжини без втрати якості.
Наслідки для майбутнього
Цей прорив виходить за межі анімації обличчя, прокладаючи шлях для інтерактивних аудіовізуальних AI персонажів. Він підтримує широкий спектр стилів, від фотореалістичних до аніме та 3D аватарів, і готовий покращити трансляцію з природними фазами говоріння та слухання. Ця технологія закладає основу для рольових ігор, розповідання історій та інтерактивного створення світів.
Просування можливостей ШІ
Дослідження Character.AI відзначає кілька досягнень, включаючи генерацію в реальному часі, ефективну дистиляцію та високу масштабованість, з можливістю роботи на всього лише двох GPU. Система також підтримує взаємодії з кількома спікерами, що дозволяє безшовні діалоги персонажів.
Перспективи майбутнього
Хоча це ще не запуск продукту, цей розвиток є критично важливою віхою в дорожній карті Character.AI. Компанія працює над інтеграцією цієї технології у свою платформу, прагнучи забезпечити досвід, подібний до FaceTime, потокове відео персонажів та візуальне створення світів. Остаточною метою є демократизація створення та взаємодії з занурювальними аудіовізуальними персонажами.
Character.AI значно інвестував у навчальну інфраструктуру та проектування системи, використовуючи понад 1,5 мільйона відібраних відеокліпів і трьохетапний навчальний процес. Цей підхід є прикладом точності та мети передових досліджень у технології штучного інтелекту.
Джерело зображення: Shutterstock
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Character.AI презентує технологію відео з штучним інтелектом у реальному часі з TalkingMachines
Ребека Мойн
04 липня 2025 04:27
Character.AI представляє TalkingMachines, прорив у генерації відео з використанням штучного інтелекту в реальному часі, що використовує передові дифузійні моделі для інтерактивної анімації персонажів, керованої аудіо.
Character.AI оголосила про значний прогрес у генерації відео в реальному часі з представленням TalkingMachines, інноваційної авторегресивної дифузійної моделі. Ця нова технологія дозволяє створювати інтерактивні, аудіоорієнтовані відео у стилі FaceTime, що дозволяє персонажам спілкуватися в реальному часі в різних стилях і жанрах, як повідомляє блог Character.AI.
Революція у генерації відео
TalkingMachines базується на попередній роботі Character.AI, AvatarFX, яка забезпечує генерацію відео на їхній платформі. Ця нова модель прокладає шлях для занурювальних, реальних AI-управлінських візуальних взаємодій та анімованих персонажів. Використовуючи лише зображення та аудіосигнал, модель може генерувати динамічний відеоконтент, відкриваючи нові можливості для розваг та інтерактивних медіа.
Технологія за TalkingMachines
Модель використовує архітектуру Diffusion Transformer (DiT), застосовуючи метод, відомий як асиметрична дистиляція знань. Цей підхід перетворює високоякісну, двосторонню відеомодель у швидкий, генератор в реальному часі. Ключові особливості включають:
Наслідки для майбутнього
Цей прорив виходить за межі анімації обличчя, прокладаючи шлях для інтерактивних аудіовізуальних AI персонажів. Він підтримує широкий спектр стилів, від фотореалістичних до аніме та 3D аватарів, і готовий покращити трансляцію з природними фазами говоріння та слухання. Ця технологія закладає основу для рольових ігор, розповідання історій та інтерактивного створення світів.
Просування можливостей ШІ
Дослідження Character.AI відзначає кілька досягнень, включаючи генерацію в реальному часі, ефективну дистиляцію та високу масштабованість, з можливістю роботи на всього лише двох GPU. Система також підтримує взаємодії з кількома спікерами, що дозволяє безшовні діалоги персонажів.
Перспективи майбутнього
Хоча це ще не запуск продукту, цей розвиток є критично важливою віхою в дорожній карті Character.AI. Компанія працює над інтеграцією цієї технології у свою платформу, прагнучи забезпечити досвід, подібний до FaceTime, потокове відео персонажів та візуальне створення світів. Остаточною метою є демократизація створення та взаємодії з занурювальними аудіовізуальними персонажами.
Character.AI значно інвестував у навчальну інфраструктуру та проектування системи, використовуючи понад 1,5 мільйона відібраних відеокліпів і трьохетапний навчальний процес. Цей підхід є прикладом точності та мети передових досліджень у технології штучного інтелекту.
Джерело зображення: Shutterstock