英伟达与麻省理工学院(MIT)近日联合发布了一项突破性技术——Audio-SDS。该技术基于文本条件的音频扩散模型扩展,首次将Score Distillation Sampling(SDS)方法引入音频领域。通过结合预训练模型的生成能力与参数化音频表示,Audio-SDS无需依赖大规模特定数据集,即可高效完成FM合成器参数校准、物理冲击音合成和音源分离三大任务。
这项创新技术利用解码器SDS、多步去噪及多尺度频谱图等方法,在主观听觉测试与客观指标上均表现优异。其核心优势在于单一预训练模型即可支持多种音频任务,显著降低了对领域特定数据的依赖。尽管如此,研究团队仍指出模型覆盖范围及优化敏感性等问题有待进一步完善。这一成果为高质量音频生成开辟了全新路径。