Character.AI تكشف عن تقنية الفيديو الذكي في الوقت الحقيقي مع TalkingMachines

ريبيكا موين

٤ يوليو ٢٠٢٥ ٠٤:٢٧

تقدم Character.AI TalkingMachines، وهو اختراق في توليد الفيديو بالذكاء الاصطناعي في الوقت الحقيقي، باستخدام نماذج انتشار متقدمة لتحريك الشخصيات بشكل تفاعلي مدفوع بالصوت.

أعلنت Character.AI عن تقدم كبير في توليد الفيديو في الوقت الحقيقي مع الكشف عن TalkingMachines، وهو نموذج تشتت تلقائي مبتكر. تتيح هذه التقنية الجديدة إنشاء مقاطع فيديو تفاعلية مدفوعة بالصوت، على غرار FaceTime، مما يسمح للشخصيات بالتحدث في الوقت الحقيقي عبر أنماط وأنواع مختلفة، كما أفاد مدونة Character.AI.

تحويل إنتاج الفيديو

تستند TalkingMachines إلى العمل السابق لـ Character.AI، AvatarFX، الذي يدعم توليد الفيديو على منصتهم. يضع هذا النموذج الأساس لتفاعلات بصرية غامرة مدعومة بالذكاء الاصطناعي في الوقت الفعلي والشخصيات المتحركة. من خلال استخدام صورة واحدة فقط وإشارة صوتية، يمكن للنموذج توليد محتوى فيديو ديناميكي، مما يفتح آفاقًا جديدة للترفيه ووسائل الإعلام التفاعلية.

التكنولوجيا وراء آلات الكلام

النموذج يستفيد من بنية Diffusion Transformer (DiT)، مستخدمًا طريقة تُعرف باسم التقطير المعرفي غير المتماثل. هذه الطريقة تحول نموذج فيديو عالي الجودة ثنائي الاتجاه إلى مُولد سريع في الوقت الحقيقي. تشمل الميزات الرئيسية:

  • انتشار متطابق للتدفق: تم تدريبه مسبقًا لإدارة أنماط الحركة المعقدة، من التعبيرات الدقيقة إلى الإيماءات الديناميكية.
  • اهتمام متقاطع مدفوع بالصوت: وحدة صوتية تحتوي على 1.2 مليار معلمة تتماشى بشكل معقد مع الصوت والحركة.
  • الاهتمام السببي النادر: يقلل من الذاكرة والزمن المستغرق من خلال التركيز على الإطارات الماضية ذات الصلة.
  • التقطير غير المتناظر: يستخدم نموذج انتشار سريع من خطوتين لتوليد بطول غير نهائي دون فقدان الجودة.

تداعيات المستقبل

تتجاوز هذه التقنية الرائدة مجرد الرسوم المتحركة للوجه، مما يمهد الطريق لشخصيات الذكاء الاصطناعي التفاعلية السمعية البصرية. تدعم مجموعة واسعة من الأنماط، من الواقعية التصويرية إلى الأنمي والأفاتار ثلاثية الأبعاد، ومن المتوقع أن تعزز البث من خلال مراحل التحدث والاستماع الطبيعية. تضع هذه التقنية الأساس للعب الأدوار، ورواية القصص، وبناء العوالم التفاعلية.

تعزيز قدرات الذكاء الاصطناعي

تشير أبحاث Character.AI إلى العديد من التقدمات، بما في ذلك التوليد في الوقت الحقيقي، والاستخلاص الفعال، والقدرة العالية على التوسع، حيث يمكن أن تعمل العمليات على وحدتي معالجة رسومات فقط. يدعم النظام أيضًا تفاعلات متعددة المتحدثين، مما يتيح حوارات سلسة بين الشخصيات.

آفاق المستقبل

على الرغم من أنه ليس إطلاق منتج بعد، إلا أن هذا التطور يمثل نقطة تحول حاسمة في خريطة طريق Character.AI. تعمل الشركة على دمج هذه التقنية في منصتها، بهدف تمكين تجارب مشابهة لبرنامج FaceTime، وبث الشخصيات، وبناء عوالم بصرية. الهدف النهائي هو ديمقراطية إنشاء والتفاعل مع شخصيات سمعية بصرية غامرة.

استثمرت Character.AI بشكل كبير في بنية التدريب وتصميم النظام، مستفيدة من أكثر من 1.5 مليون مقطع فيديو منسق ومنهج تدريب ثلاثي المراحل. تعكس هذه الطريقة دقة وهدف البحث الرائد في تكنولوجيا الذكاء الاصطناعي.

مصدر الصورة: Shutterstock

شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت