"AUDIO"的搜索結果

Kimi发布全新通用音频基础模型Kimi-Audio

金十数据4月26日讯,今日,Kimi发布新的开源项目——全新通用音频基础模型 Kimi-Audio。据介绍,该模型支持语音识别、音频理解、音频转文本、语音对话等多种任务。
展開

阿里通义开源音频语言模型Qwen2-Audio,相关论文入选顶会ACL 2024

金十数据8月13日讯,阿里通义大模型继续开源,Qwen2系列开源家族新增音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。通义团队还同步推出了一套全新的音频理解模型测评基准,相关论文已入选本周正在举办的国际顶会ACL2024。
展開
  • 3

完美世界游戏携手英伟达 持续探索AI在游戏场景中的应用

完美世界游戏官微最新消息,北京时间3月19日凌晨,英伟达AI大会(NVIDIA GTC 2024)在美国加州圣何塞SAP中心举行。英伟达CEO黄仁勋就“见证AI的变革时刻”为主题进行了演讲,并分享了NVIDIA的加速计算平台如何推动AI、数字孪生、云技术和可持续计算的下一波浪潮。GTC同时公布完美世界游戏旗下仙侠MMORPG端游《诛仙世界》正式接入了英伟达Audio2Face技术(生成式AI轻松将音频转为动画技术),并借此次大会向全球观众展示了与《诛仙世界》的结合成果,双方未来将在AI的多个领域和场景继续保持密切交流与合作。
展開

Meta 公布 audio2photoreal AI 框架,输入配音文件即可生成人物对话场景

Meta 近日公布了一项名为 audio2photoreal 的 AI 框架,该框架能够生成一系列逼真的 NPC 人物模型,并借助现有配音文件自动为人物模型“对口型”“摆动作”。 官方研究报告指出,Audio2 photoreal 框架在接收到配音文件后,首先会生成一系列 NPC 模型,之后利用量化技术及扩散算法生成模型用动作,其中量化技术为框架提供动作样本参考、扩散算法用于改善框架生成的人物动作效果。 对照实验中有 43% 的评估者对框架生成的人物对话场景感到“强烈满意”,因此研究人员认为 Audio2 photoreal 框架相对于业界竞品能够生成“更具动态和表现力”的动作。据悉,研究团队目前已经在 GitHub 公开了相关代码和数据集。
展開
  • 1