B站近日正式开源其自研语音生成大模型IndexTTS-2.0,该模型是首个支持精确时长控制的自回归零样本文本转语音系统,尤其适用于视频配音等对音画同步要求较高的场景。模型支持两种生成模式,既可指定生成时长,也可自由生成并保留输入提示的韵律特征。
在语音表达方面,IndexTTS-2.0实现了情感与音色的解耦控制,用户可分别指定音色与情绪来源,模型在零样本条件下仍能精准还原。团队还引入GPT潜在表示与三阶段训练策略,提升生成稳定性,并通过“软指令”机制实现自然语言情绪控制。
实验结果显示,IndexTTS-2.0在多项指标上超越现有最先进模型,具备良好扩展性,相关代码与权重将公开,助力学术与产业应用发展。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。