中国移动近日在哈尔滨数据中心完成万卡级智算集群长周期稳定训练,训练稳定性达行业领先水平,标志着我国在超大规模智算集群管控领域取得关键进展。依托自研的全调度以太网(GSE)技术体系,中国移动攻克慢卡慢网络识别、断点续训、AI运维智能体等核心技术难题,实现故障分钟级定界与回滚,硬件故障断训量下降50%。该成果使大模型训练周期缩短近三分之一,资源利用率接近100%,有力支撑自动驾驶、生物医药等领域发展。目前,中国移动已在黑龙江、广东建成智算运维样板间,并计划到2028年建成全国最大规模智算基础设施,探索十万卡集群建设,国产智能算力规模将突破100 EFLOPS。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。

扫一扫关注微信