最新最快科技资讯
太阳能光伏网

DeepSeek推出原生稀疏注意力机制NSA,加速长上下文训练与推理

DeepSeek今日正式发布NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩和细粒度token选择,旨在优化现代硬件性能。

官方表示,NSA在加速推理的同时,能够显著降低预训练成本,且不会牺牲模型性能。在通用基准测试、长上下文任务以及基于指令的推理中,NSA的表现与全注意力模型相当甚至更优。这一技术的推出,为大规模语言模型的高效训练和部署提供了新的解决方案。

最新相关

2024款零跑C16推送OTA更新,智能体验全面升级

2024款零跑C16车型近日迎来重要OTA版本更新,涵盖纯电与增程双版本。本次升级聚焦智能化体验,新增HPA停车场记忆泊车功能,支持激光雷达版NAP高速领航优化,显著提升复杂路况下的行驶稳定性与安全...

国内航线燃油附加费再次上调

多家航空公司宣布,自2025年7月5日起,国内航线燃油附加费标准将有所调整。800公里(含)以下航线每位成人旅客收取10元燃油附加费,800公里以上航线则提高至20元。此前,6月5日的调整曾将短途航线燃...

Meta加码AI布局 收购PlayAI谈判引关注

彭博社此前报道称,Meta正就收购AI声音克隆公司PlayAI展开深入谈判,拟将其技术和部分人才纳入麾下,尽管交易尚未最终敲定。此举将进一步增强Meta在AI语音技术方面的能力,特别是在AI助手与智能眼...