2025年6月3日,阿里通义大模型公布了“空间音频生成”模型OmniAudio。该模型由通义实验室语音团队打造,能直接从360°视频生成FOA空间音频。为解决数据稀缺问题,团队构建了Sphere360数据集,目前OmniAudio已在GitHub上架并开源。
阿里通义大模型公布OmniAudio模型
品玩6月3日讯,据APPSO报道,阿里通义大模型于当日公布了「空间音频生成」模型————OmniAudio。据通义团队介绍,OmniAudio能够直接从360°视频生成空间音频。
360V2SA任务与Sphere360数据集
为解决如何利用全景视频生成与之匹配的空间音频这一问题,通义实验室语音团队提出了360V2SA(360-degree Video to Spatial Audio)任务,旨在直接从360°视频生成FOA(First-order Ambisonics)音频。受限于现有的配对360°视频和空间音频数据极为稀缺,通义团队精心设计并构建了Sphere360数据集。该数据集包含大量高质量的360°视频和相应的FOA空间音频,是一个包含超过10.3万个真实世界视频片段的数据集,涵盖288种音频事件,总时长达到288小时。
OmniAudio开源情况
目前,OmniAudio已上架GitHub并同步公布了代码、数据开源仓库,以及相关技术论文。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...