Character.AI giới thiệu TalkingMachines, một bước đột phá trong việc tạo video AI thời gian thực, sử dụng các mô hình khuếch tán tiên tiến cho hoạt hình nhân vật tương tác, dựa trên âm thanh.
Character.AI đã công bố một bước tiến quan trọng trong việc tạo video thời gian thực với sự ra mắt của TalkingMachines, một mô hình khuếch tán tự hồi quy sáng tạo. Công nghệ mới này cho phép tạo ra các video tương tác, điều khiển bằng âm thanh, theo phong cách FaceTime, cho phép các nhân vật trò chuyện theo thời gian thực với nhiều phong cách và thể loại khác nhau, như đã được báo cáo bởi Blog của Character.AI.
Cách mạng hóa việc tạo video
TalkingMachines dựa trên công việc trước đây của Character.AI, AvatarFX, cái mà cung cấp khả năng tạo video trên nền tảng của họ. Mô hình mới này tạo điều kiện cho các tương tác hình ảnh hấp dẫn, theo thời gian thực, được hỗ trợ bởi AI và các nhân vật hoạt hình. Bằng cách sử dụng chỉ một hình ảnh và một tín hiệu giọng nói, mô hình có thể tạo ra nội dung video động, mở ra những khả năng mới cho giải trí và truyền thông tương tác.
Công Nghệ Đằng Sau TalkingMachines
Mô hình này tận dụng kiến trúc Diffusion Transformer (DiT), sử dụng một phương pháp được gọi là tinh chế kiến thức không đối xứng. Phương pháp này biến một mô hình video hai chiều chất lượng cao thành một trình tạo nhanh, thời gian thực. Các tính năng chính bao gồm:
Phân Tán Khớp Luồng: Được huấn luyện trước để quản lý các mẫu chuyển động phức tạp, từ những biểu cảm tinh tế đến những cử chỉ năng động.
Chú Ý Chéo Dựa Trên Âm Thanh: Một mô-đun âm thanh 1,2B tham số kết hợp âm thanh và chuyển động một cách tinh vi.
Chú ý nguyên nhân thưa thớt: Giảm bộ nhớ và độ trễ bằng cách tập trung vào các khung hình quá khứ có liên quan.
Chưng cất không đối xứng: Sử dụng một mô hình khuếch tán hai bước nhanh chóng để tạo ra độ dài vô hạn mà không mất chất lượng.
Những hệ quả cho tương lai
Đột phá này không chỉ giới hạn ở hoạt hình khuôn mặt, mà còn mở đường cho các nhân vật AI tương tác đa phương tiện. Nó hỗ trợ nhiều phong cách, từ chân thực đến anime và hình đại diện 3D, và sẵn sàng nâng cao trải nghiệm phát trực tuyến với các giai đoạn nói và lắng nghe tự nhiên. Công nghệ này đặt nền tảng cho việc nhập vai, kể chuyện và xây dựng thế giới tương tác.
Nâng cao khả năng AI
Nghiên cứu của Character.AI đánh dấu nhiều tiến bộ, bao gồm tạo ra thời gian thực, chưng cất hiệu quả và khả năng mở rộng cao, với các hoạt động có thể chạy chỉ trên hai GPU. Hệ thống cũng hỗ trợ tương tác đa diễn giả, cho phép các cuộc đối thoại giữa các nhân vật diễn ra liền mạch.
Triển Vọng Tương Lai
Mặc dù chưa phải là một sản phẩm được ra mắt, nhưng sự phát triển này là một cột mốc quan trọng trong lộ trình của Character.AI. Công ty đang làm việc để tích hợp công nghệ này vào nền tảng của họ, nhằm mục đích cho phép những trải nghiệm giống như FaceTime, phát trực tiếp nhân vật và xây dựng thế giới hình ảnh. Mục tiêu cuối cùng là dân chủ hóa việc tạo ra và tương tác với các nhân vật âm thanh hình ảnh sống động.
Character.AI đã đầu tư mạnh mẽ vào hạ tầng đào tạo và thiết kế hệ thống, sử dụng hơn 1,5 triệu video clip được tuyển chọn và một quy trình đào tạo ba giai đoạn. Cách tiếp cận này exemplifies độ chính xác và mục đích của nghiên cứu tiên phong trong công nghệ AI.
Nguồn hình ảnh: Shutterstock
Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Character.AI Ra Mắt Công Nghệ Video AI Thời Gian Thực với TalkingMachines
Rebeca Moen
04 tháng 7, 2025 04:27
Character.AI giới thiệu TalkingMachines, một bước đột phá trong việc tạo video AI thời gian thực, sử dụng các mô hình khuếch tán tiên tiến cho hoạt hình nhân vật tương tác, dựa trên âm thanh.
Character.AI đã công bố một bước tiến quan trọng trong việc tạo video thời gian thực với sự ra mắt của TalkingMachines, một mô hình khuếch tán tự hồi quy sáng tạo. Công nghệ mới này cho phép tạo ra các video tương tác, điều khiển bằng âm thanh, theo phong cách FaceTime, cho phép các nhân vật trò chuyện theo thời gian thực với nhiều phong cách và thể loại khác nhau, như đã được báo cáo bởi Blog của Character.AI.
Cách mạng hóa việc tạo video
TalkingMachines dựa trên công việc trước đây của Character.AI, AvatarFX, cái mà cung cấp khả năng tạo video trên nền tảng của họ. Mô hình mới này tạo điều kiện cho các tương tác hình ảnh hấp dẫn, theo thời gian thực, được hỗ trợ bởi AI và các nhân vật hoạt hình. Bằng cách sử dụng chỉ một hình ảnh và một tín hiệu giọng nói, mô hình có thể tạo ra nội dung video động, mở ra những khả năng mới cho giải trí và truyền thông tương tác.
Công Nghệ Đằng Sau TalkingMachines
Mô hình này tận dụng kiến trúc Diffusion Transformer (DiT), sử dụng một phương pháp được gọi là tinh chế kiến thức không đối xứng. Phương pháp này biến một mô hình video hai chiều chất lượng cao thành một trình tạo nhanh, thời gian thực. Các tính năng chính bao gồm:
Những hệ quả cho tương lai
Đột phá này không chỉ giới hạn ở hoạt hình khuôn mặt, mà còn mở đường cho các nhân vật AI tương tác đa phương tiện. Nó hỗ trợ nhiều phong cách, từ chân thực đến anime và hình đại diện 3D, và sẵn sàng nâng cao trải nghiệm phát trực tuyến với các giai đoạn nói và lắng nghe tự nhiên. Công nghệ này đặt nền tảng cho việc nhập vai, kể chuyện và xây dựng thế giới tương tác.
Nâng cao khả năng AI
Nghiên cứu của Character.AI đánh dấu nhiều tiến bộ, bao gồm tạo ra thời gian thực, chưng cất hiệu quả và khả năng mở rộng cao, với các hoạt động có thể chạy chỉ trên hai GPU. Hệ thống cũng hỗ trợ tương tác đa diễn giả, cho phép các cuộc đối thoại giữa các nhân vật diễn ra liền mạch.
Triển Vọng Tương Lai
Mặc dù chưa phải là một sản phẩm được ra mắt, nhưng sự phát triển này là một cột mốc quan trọng trong lộ trình của Character.AI. Công ty đang làm việc để tích hợp công nghệ này vào nền tảng của họ, nhằm mục đích cho phép những trải nghiệm giống như FaceTime, phát trực tiếp nhân vật và xây dựng thế giới hình ảnh. Mục tiêu cuối cùng là dân chủ hóa việc tạo ra và tương tác với các nhân vật âm thanh hình ảnh sống động.
Character.AI đã đầu tư mạnh mẽ vào hạ tầng đào tạo và thiết kế hệ thống, sử dụng hơn 1,5 triệu video clip được tuyển chọn và một quy trình đào tạo ba giai đoạn. Cách tiếp cận này exemplifies độ chính xác và mục đích của nghiên cứu tiên phong trong công nghệ AI.
Nguồn hình ảnh: Shutterstock