近日,英伟达与麻省理工学院、香港大学合作推出Fast-dLLM框架,旨在解决扩散模型(Diffusion-based LLMs)在实际应用中的效率瓶颈。尽管扩散模型采用双向注意力机制具备理论优势,但其高昂的计算成本和多词元同步解码时的质量下降问题,限制了其广泛应用。
Fast-dLLM通过引入块状近似KV缓存机制和置信度感知并行解码策略,显著优化性能。其中,KV缓存将序列划分为块并预计算激活值,减少冗余计算;置信度解码则通过选择性处理高置信度词元,避免依赖冲突。测试结果显示,该框架在GSM8K数据集上实现27.6倍加速,准确率达76.0%,同时在其他基准测试中也表现出色。
这项研究有效平衡了速度与质量,为扩散模型在语言生成任务中的实际应用开辟了新路径。