2026年2月11日,蚂蚁集团正式开源全模态大模型Ming-Flash-Omni 2.0。该模型是业界首个支持语音、环境音效与音乐同轨生成的全场景音频统一模型,支持自然语言精细调控音色、语速、情绪等参数,推理帧率达3.1Hz,可实现分钟级长音频实时高保真生成。基于Ling-2.0 MoE架构(100B-A6B),其在视觉理解、音频生成与图像编辑等多任务上达开源领先水平。模型权重与推理代码已上线Hugging Face及蚂蚁百灵Ling Studio平台。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信