2025年9月19日,小米宣布正式开源其首个原生端到端语音大模型Xiaomi-MiMo-Audio。该模型基于创新预训练架构,依托上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,并观察到明显的“涌现”行为。MiMo-Audio在多项评测中表现突出,7B参数量下性能领先同规模开源模型;在MMAU基准上超越Google Gemini-2.5-Flash,在Big Bench Audio S2T任务中优于GPT-4o-Audio-Preview。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。