Character.AI 推出 TalkingMachines 的實時 AI 視頻技術

瑞貝卡·莫恩

2025年7月4日 04:27

Character.AI推出了TalkingMachines,這是一項實時AI視頻生成的突破,利用先進的擴散模型進行互動式音頻驅動的角色動畫。

Character.AI 宣布了一項在實時視頻生成方面的重要進展,推出了 TalkingMachines,這是一種創新的自回歸擴散模型。這項新技術使得創建互動的、基於音頻的 FaceTime 風格視頻成爲可能,讓角色能夠在各種風格和類型中實時對話,正如 Character.AI 博客所報道的那樣。

革新視頻生成

TalkingMachines建立在Character.AI之前的工作AvatarFX之上,後者爲其平台的視頻生成提供支持。這個新模型爲沉浸式、實時的AI驅動視覺互動和動畫角色奠定了基礎。通過僅利用一張圖像和一個聲音信號,該模型能夠生成動態視頻內容,爲娛樂和互動媒體開闢新的可能性。

TalkingMachines 背後的技術

該模型利用了擴散變壓器(DiT)架構,採用了一種稱爲非對稱知識蒸餾的方法。該方法將一個高質量的雙向視頻模型轉變爲一個快速的實時生成器。主要特點包括:

  • 流匹配擴散: 預訓練以管理復雜的運動模式,從細微的表情到動態手勢。
  • 音頻驅動的交叉注意力: 一個12億參數的音頻模塊,精細地將聲音與動作對齊。
  • 稀疏因果注意力: 通過關注相關的過去幀來減少內存和延遲。
  • 非對稱蒸餾: 採用快速的兩步擴散模型進行無限長度生成而不損失質量。

對未來的影響

這項突破不僅限於面部動畫,爲互動視聽AI角色鋪平了道路。它支持從照片級真實到動漫和3D頭像的廣泛風格,並且有望通過自然的說話和傾聽階段來增強流媒體。這項技術爲角色扮演、講故事和互動世界構建奠定了基礎。

提升人工智能能力

Character.AI的研究標志着多個進展,包括實時生成、高效蒸餾和高可擴展性,能夠在僅使用兩個GPU的情況下運行操作。該系統還支持多說話者交互,實現無縫的角色對話。

未來展望

雖然這還不是產品發布,但這一發展是Character.AI路線圖中的一個重要裏程碑。該公司正在努力將這項技術集成到他們的平台中,旨在實現類似FaceTime的體驗、角色流媒體和視覺世界構建。最終目標是讓每個人都能創造和與沉浸式視聽角色進行互動。

Character.AI 在訓練基礎設施和系統設計方面進行了大量投資,利用了超過 150 萬個精心挑選的視頻片段和三階段訓練管道。這種方法展示了前沿研究在人工智能技術中的精確性和目標性。

圖片來源:Shutterstock

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)