Нещодавно Meta представила фреймворк штучного інтелекту під назвою audio2photoreal, який здатний генерувати серію реалістичних моделей персонажів NPC і автоматично «синхронізувати губи» та «позувати» моделі персонажів за допомогою наявних файлів закадрового голосу.
В офіційному звіті про дослідження зазначалося, що після отримання файлу дубляжу фотореальний фреймворк Audio2 спочатку згенерує серію моделей NPC, а потім використає технологію квантування та алгоритм дифузії для генерації дій моделі, в якому технологія квантування забезпечує еталон зразка дії для фреймворку, а алгоритм дифузії використовується для покращення ефекту дій персонажів, згенерованих кадром.
Сорок три відсотки оцінювачів у контрольованому експерименті були «повністю задоволені» сценами діалогів персонажів, згенерованими кадром, тому дослідники вважали, що фотореальна структура Audio2 здатна генерувати «більш динамічні та виразні» рухи, ніж конкуруючі продукти в галузі. Повідомляється, що тепер дослідницька група оприлюднила відповідний код і набір даних на GitHub.