华为N腾910C算力集群发力,国产芯片成功完成万亿级AI大模型训练

08 06月 2026

2026-06-08 15:23

【太平洋科技快讯】近日，深圳河套学院AI训练平台项目团队联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为及深智城AI算力平台，基于N腾910C国产AI算力集群，成功完成1.6万亿参数DeepSeek-V4-Pro大模型的全参数后训练。这一实践，也为全球第三方机构使用国产算力开展同级别大模型训练积累了实践经验，验证了国产AI芯片具备支撑世界级超大参数模型训练的能力。

万亿参数大模型是当前AI领域前沿方向，在逻辑推理、数理运算、代码生成、长文本解析等场景能力突出。这类模型的全参数训练，对硬件算力、集群稳定性、算法适配都有着极高标准。过往全球万亿级大模型训练大多依赖海外算力产品，国产算力此前多应用于模型推理、小幅微调，难以胜任全参数深度训练，也是行业长期存在的技术难点。

本次训练对象DeepSeek-V4-Pro采用混合专家(MoE)架构，该结构日常调用仅激活部分模块，运行效率较高，但在后训练阶段，模块间数据交互量会数倍提升，叠加动态注意力机制，对算力调度、显存管理提出严苛考验。如果说模型推理只是简单的单向数据输出，那么全参数后训练则包含多层反馈与迭代逻辑，整体计算、通信压力大幅增加。

针对上述难点，研发团队在千卡级算力集群上实现多项技术突破。首先是分布式显存拆分方案，将海量模型参数合理分配至各计算卡，完成精细化算力调度；其次优化负载均衡策略，解决MoE架构下模块任务分配不均、跨卡通信拥堵问题；最后搭建全流程可视化监控体系，保障整个训练流程稳定运行。本次训练累计完成1500多步迭代，全程未出现中断、故障。

数据显示，该项目模型算力利用率(MFU)突破30%，核心训练算子效率提升14%，各项指标均达到工业级应用标准。此次攻关证明，国产算力不再局限于模型推理环节，完全可承接顶级超大参数大模型的全参数训练任务，相关技术路线具备落地价值。