2025年12月2日,英伟达发布论文介绍新型AI解码方法TiDAR,融合自回归与扩散机制,利用GPU空闲槽位加速文本生成。该技术通过单个Transformer模型同时执行“下一词预测”和并行起草,在Qwen系列模型测试中,15亿至80亿参数版本吞吐量提升达4.71至5.91倍,且准确率持平或略优。TiDAR采用结构化注意力掩码划分前缀、验证与起草区,确保KV缓存有效性,解决早期扩散解码部署难题。目前测试限于80亿参数以下模型,尚未进行内核级优化,未来将验证其在更大规模模型中的适用性。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信