نتائج البحث عن "AUDIO"

أصدرت كيمي نموذج الصوت الأساسي العام الجديد Kimi-Audio

جين10 بيانات 26 أبريل، اليوم، أصدرت Kimi مشروع مفتوح المصدر جديد - نموذج Kimi-Audio الأساسي الصوتي العام الجديد. ووفقًا لما تم تقديمه، فإن هذا النموذج يدعم التعرف على الصوت، وفهم الصوت، وتحويل الصوت إلى نص، والحوار الصوتي، وغيرها من المهام المتنوعة.
المزيد

تم اختيار ورقة البحث المتعلقة بنموذج لغة الصوت Qwen2-Audio المفتوح المصدر لتوليف الصوت والنص الخاص بها ضمن مؤتمر ACL الرفيع المستوى لعام 2024.

أخبار بوابة جيتيو: في 13 أغسطس، قام فريق تونجي تشونغ الخاص بـ Alibaba بإطلاق نموذج Qwen2-Audio المفتوح المصدر، وهو جزء من عائلة Qwen2 المفتوح المصدر. يتيح Qwen2-Audio القدرة على الإجابة على الأسئلة من خلال الصوت دون الحاجة إلى إدخال النص، حيث يمكنه فهم وتحليل الإشارات الصوتية المدخلة من المستخدم، بما في ذلك الأصوات البشرية والصوت الطبيعي والموسيقى وما إلى ذلك. هذا النموذج تفوق بشكل ملحوظ على أفضل النماذج السابقة في العديد من التقييمات الرسمية. كما قام فريق التونجي تشونغ بإطلاق تقييم جديد لفهم الصوت بالكامل، وهو يتضمن بحثًا مختارًا في مؤتمر ACL2024 الدولي الذي يعقد هذا الأسبوع.
المزيد
  • 3

تواصل Perfect World Games و NVIDIA استكشاف تطبيق الذكاء الاصطناعي في سيناريوهات الألعاب

وفقا لآخر الأخبار من WeChat الرسمي ل Perfect World Games ، في الصباح الباكر من يوم 19 مارس ، بتوقيت بكين ، عقد مؤتمر NVIDIA الذكاء الاصطناعي (NVIDIA GTC 2024) في مركز SAP في سان خوسيه ، كاليفورنيا ، الولايات المتحدة الأمريكية. تحدث الرئيس التنفيذي لشركة NVIDIA Jensen Huang عن موضوع "مشاهدة اللحظة التحويلية الذكاء الاصطناعي" وشارك كيف تقود منصة الحوسبة المتسارعة من NVIDIA الموجة التالية من الذكاء الاصطناعي والتوائم الرقمية والتقنيات السحابية والحوسبة المستدامة. أعلنت GTC أيضا أن لعبة Xianxia MMORPG الطرفية "Zhuxian World" من Perfect World Games قد اتصلت رسميا بتقنية Audio2Face من NVIDIA (التوليدية الذكاء الاصطناعي تحول الصوت بسهولة إلى تقنية رسوم متحركة) ، واستخدمت هذا المؤتمر لتظهر للجمهور العالمي نتائج الدمج مع "Zhuxian World" ، وسيواصل الجانبان الحفاظ على التبادلات والتعاون الوثيقين في مجالات وسيناريوهات الذكاء الاصطناعي متعددة في المستقبل.
المزيد

أعلنت Meta عن إطار عمل audio2photoreal الذكاء الاصطناعي ، والذي يمكنه إنشاء مشاهد حوار الشخصيات عن طريق إدخال ملفات الدبلجة

كشفت Meta مؤخرا عن إطار عمل الذكاء الاصطناعي يسمى audio2photoreal ، وهو قادر على إنشاء سلسلة من نماذج شخصيات NPC الواقعية و "مزامنة الشفاه" تلقائيا و "وضع" نماذج الشخصيات بمساعدة ملفات التعليق الصوتي الموجودة. أشار تقرير البحث الرسمي إلى أنه بعد استلام ملف الدبلجة ، سيقوم إطار عمل Audio2 photoreal أولا بإنشاء سلسلة من نماذج NPC ، ثم استخدام تقنية التكميم وخوارزمية الانتشار لإنشاء إجراءات النموذج ، حيث توفر تقنية التكميم مرجع عينة العمل للإطار ويتم استخدام خوارزمية الانتشار لتحسين تأثير إجراءات الشخصية الناتجة عن الإطار. كان ثلاثة وأربعون بالمائة من المقيمين في التجربة الخاضعة للرقابة "راضين بشدة" عن مشاهد حوار الشخصيات الناتجة عن الإطار ، لذلك شعر الباحثون أن إطار Audio2 photoreal كان قادرا على توليد حركات "أكثر ديناميكية وتعبيرا" من المنتجات المنافسة في الصناعة. يذكر أن فريق البحث قد جعل الآن الكود ومجموعة البيانات ذات الصلة عامة على GitHub.
المزيد
  • 1