Hasil pencarian untuk "AUDIO"

Kimi merilis model dasar audio universal baru Kimi-Audio

Jin10 Data 26 April, hari ini, Kimi merilis proyek sumber terbuka baru—model dasar audio umum Kimi-Audio. Dijelaskan bahwa model ini mendukung berbagai tugas seperti pengenalan suara, pemahaman audio, transkripsi audio, dan percakapan suara.
Lainnya

阿里通义Sumber Terbuka音频语言模型Qwen2-Audio,相关论文入选顶会ACL 2024

Data Gold 10 pada 13 Agustus, Ali Tongyi terus Terbuka Sumber, keluarga Qwen2 Sumber Terbuka menambahkan model bahasa audio Qwen2-Audio. Qwen2-Audio dapat melakukan tanya jawab suara langsung tanpa input teks, memahami dan menganalisis sinyal audio yang diinputkan oleh pengguna, termasuk suara manusia, suara alam, musik, dan lainnya. Model ini secara signifikan melampaui model terbaik sebelumnya dalam banyak evaluasi otoritatif. Tim Tongyi juga secara bersamaan meluncurkan Benchmark model pemahaman audio baru yang lengkap, dan makalah terkait telah terpilih pada konferensi ACL2024 internasional yang sedang berlangsung minggu ini.
Lainnya
  • 3

Perfect World Games dan NVIDIA terus mengeksplorasi penerapan AI dalam skenario game

Menurut berita terbaru dari WeChat resmi Perfect World Games, pada pagi hari tanggal 19 Maret, waktu Beijing, Konferensi NVIDIA AI (NVIDIA GTC 2024) diadakan di SAP Center di San Jose, California, AS. CEO NVIDIA Jensen Huang berbicara tentang topik "Menyaksikan Momen Transformatif AI" dan berbagi bagaimana platform komputasi terakselerasi NVIDIA mendorong gelombang AI berikutnya, kembar digital, teknologi cloud, dan komputasi berkelanjutan. GTC juga mengumumkan bahwa game terminal MMORPG Xianxia Perfect World Games "Zhuxian World" telah secara resmi terhubung ke teknologi Audio2Face NVIDIA (AI generatif dengan mudah mengubah audio menjadi teknologi animasi), dan menggunakan konferensi ini untuk menunjukkan kepada audiens global hasil kombinasi dengan "Dunia Zhuxian", dan kedua belah pihak akan terus mempertahankan pertukaran dan kerja sama yang erat di berbagai bidang dan skenario AI di masa depan.
Lainnya

Meta mengumumkan kerangka kerja AI audio2photoreal, yang dapat menghasilkan adegan dialog karakter dengan memasukkan file sulih suara

Meta baru-baru ini meluncurkan kerangka kerja AI yang disebut audio2photoreal, yang mampu menghasilkan serangkaian model karakter NPC yang realistis dan secara otomatis "menyinkronkan bibir" dan "berpose" model karakter dengan bantuan file sulih suara yang ada. Laporan penelitian resmi menunjukkan bahwa setelah menerima file sulih suara, kerangka fotoreal Audio2 pertama-tama akan menghasilkan serangkaian model NPC, dan kemudian menggunakan teknologi kuantisasi dan algoritma difusi untuk menghasilkan tindakan model, di mana teknologi kuantisasi menyediakan referensi sampel tindakan untuk kerangka kerja dan difusi Algoritma digunakan untuk meningkatkan efek tindakan karakter yang dihasilkan oleh bingkai. Empat puluh tiga persen dari evaluator dalam eksperimen terkontrol "sangat puas" dengan adegan dialog karakter yang dihasilkan oleh bingkai, sehingga para peneliti merasa bahwa kerangka fotoreal Audio2 mampu menghasilkan gerakan "lebih dinamis dan ekspresif" daripada produk pesaing di industri. Dilaporkan bahwa tim peneliti kini telah membuat kode dan dataset yang relevan menjadi publik di GitHub.
Lainnya
  • 1