Результати пошуку для "AUDIO"

Kimi випустила нову універсальну аудіо базову модель Kimi-Audio

Jin10 дані 26 квітня повідомляють, що сьогодні Kimi випустила новий відкритий вихідний код проекту — нову універсальну аудіо базову модель Kimi-Audio. Згідно з інформацією, ця модель підтримує розпізнавання мови, розуміння аудіо, перетворення аудіо в текст, голосові діалоги та багато інших завдань.
Більше

Алі Тунг Інтерпретація відкритого вихідного коду мови Qwen2-Audio, відповідний науковий допис відібраний на конференцію ACL 2024

Дані Jinshi на 13 серпня повідомили, що модель Відкритий вихідний код Ali Tongyi продовжує розширюватися, серія Qwen2 розширила свою сім'ю з аудіо-моделлю мови Qwen2-Audio. Qwen2-Audio може прямо використовувати голосове питання-відповідь без потреби у тексті, розуміючи та аналізуючи аудіосигнали, включаючи голос людини, природний звук, музику тощо. Ця модель в значній мірі перевершує попередні найкращі моделі за результатами багатьох авторитетних оцінок. Крім того, команда Tongyi одночасно представила нову модель оцінки аудіорозуміння пастка Benchmark, стаття про яку була включена до програми міжнародної конференції верхнього рівня ACL2024, що проходить цього тижня.
Більше
  • 3

Perfect World Games та NVIDIA продовжують досліджувати застосування ШІ в ігрових сценаріях

Згідно з останніми новинами офіційного WeChat від Perfect World Games, рано вранці 19 березня за пекінським часом у SAP Center у Сан-Хосе, штат Каліфорнія, США відбулася конференція NVIDIA AI Conference (NVIDIA GTC 2024). Генеральний директор NVIDIA Дженсен Хуанг виступив з доповіддю на тему «Свідки трансформаційного моменту штучного інтелекту» та розповів, як платформа прискорених обчислень NVIDIA стимулює наступну хвилю штучного інтелекту, цифрових двійників, хмарних технологій та стійких обчислень. GTC також оголосила, що термінальна гра Xianxia MMORPG від Perfect World Games «Zhuxian World» офіційно підключилася до технології Audio2Face від NVIDIA (генеративний штучний інтелект легко перетворює аудіо на технологію анімації), і використала цю конференцію, щоб показати світовій аудиторії результати об'єднання з «Zhuxian World», і обидві сторони продовжуватимуть підтримувати тісний обмін та співпрацю в багатьох галузях та сценаріях штучного інтелекту в майбутньому.
Більше

Meta анонсувала фреймворк audio2photoreal AI, який може генерувати сцени діалогів персонажів, вводячи файли дубляжу

Нещодавно Meta представила фреймворк штучного інтелекту під назвою audio2photoreal, який здатний генерувати серію реалістичних моделей персонажів NPC і автоматично «синхронізувати губи» та «позувати» моделі персонажів за допомогою наявних файлів закадрового голосу. В офіційному звіті про дослідження зазначалося, що після отримання файлу дубляжу фотореальний фреймворк Audio2 спочатку згенерує серію моделей NPC, а потім використає технологію квантування та алгоритм дифузії для генерації дій моделі, в якому технологія квантування забезпечує еталон зразка дії для фреймворку, а алгоритм дифузії використовується для покращення ефекту дій персонажів, згенерованих кадром. Сорок три відсотки оцінювачів у контрольованому експерименті були «повністю задоволені» сценами діалогів персонажів, згенерованими кадром, тому дослідники вважали, що фотореальна структура Audio2 здатна генерувати «більш динамічні та виразні» рухи, ніж конкуруючі продукти в галузі. Повідомляється, що тепер дослідницька група оприлюднила відповідний код і набір даних на GitHub.
Більше
  • 1