2026年3月16日,阿里通义实验室正式发布并开源多模态大模型Fun-CineForge。该模型面向影视级多场景配音需求,首次引入‘时间模态’,支持口型同步、情绪表达、音色一致与时间对齐四大能力。配套开源CineDub数据集构建方法,覆盖独白、对话、多人场景等,中文字错率低至1.49%。模型基于CosyVoice3语音合成底层,输入包括无声视频、文本、角色属性、时间戳及参考语音,当前支持30秒内视频推理。代码与模型已在GitHub、HuggingFace和ModelScope同步开放。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信