2026年3月30日晚,阿里巴巴正式发布全模态大模型Qwen3.5-Omni。该模型支持文本、图片、音频及音视频输入,具备细粒度带时间戳的音视频理解与Caption生成能力。其在音频与音视频分析等215项任务中刷新SOTA,多项指标超越Gemini-3.1-Pro。新增语义打断、音色克隆、语音控制及WebSearch原生支持,可处理10小时音频或1小时视频,支持256K上下文与113种语言。用户可通过阿里云百炼平台调用API,提供Plus、Flash、Light三种版本。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信