“超节点”生态加速融合:商汤与华为昇腾打通关键适配,共创国产AI算力底座

来源:爱集微 #商汤科技# #华为# #超节点# # AI#
2724

近日,商汤大装置SenseCore与昇腾384超节点率先完成全面适配,在功能与性能验证中均达到预期目标。这一合作标志着国产AI算力在系统级协同与工程化落地方面取得关键进展,推动国产高性能计算架构从“可用”真正走向“好用”,为大模型训练与推理提供了更稳定、高效的算力基座。


超节点(SuperPod)作为当前AI算力基础设施的重要形态,通过高速互联将多个NPU/GPU整合为统一计算单元,旨在破解大规模模型训练中的算力协同与通信效率瓶颈。华为昇腾384超节点凭借其“全对等架构”实现跨服务器、跨机柜的系统级资源池化,将CPU、NPU、DPU、存储等组件高速互联,构建出媲美超级计算机的算力密度与带宽能力。

然而,此类大规模异构算力系统也对软件栈、调度能力和系统可靠性提出了极高要求。商汤SenseCore作为全栈AI云原生平台,与华为昇腾团队联合攻关,在调度优化、系统稳定性与故障恢复等方面实现多项行业创新,显著提升超节点在真实场景中的可用性与训练效率。

商汤联合华为昇腾,实现超节点适配多项创新

华为昇腾推出的与此同时,这一全新方案架构,也对软件栈的升级和平台调度优化提出了更高要求,让它能“跑得快、跑得稳”。

作为AI云原生平台,商汤大装置SenseCore致力于为用户提供敏捷、灵活、可靠的全栈AI基础设施服务,以极致性价比推动大模型技术的高效落地与规模化应用。

基于商汤大装置SenseCore与昇腾384超节点的特点,双方团队联合攻关,在调度优化、系统稳定性以及故障恢复等方面提出多项行业创新:

  • 调度优化:在调度能力上,除了支持POD内单机和多机调度、跨POD多机调度、亲和性调度等基础能力,SenseCore平台配合模型并行策略实现了逻辑超节点自动划分,使EP/TP等大通信策略可以充分利用灵衢网络,提升模型训练效率。

  • 跨POD训练稳定性:另外SenseCore团队提交了多个MR修复多POD场景下master/work任务rank乱序问题,从根本上解决了跨POD训练任务概率性失败的问题。 

  • 多维度故障检测与恢复:在故障检测能力上覆盖了从服务器硬件、高速互联总线、RoCE网络到任务、进程软硬件多维度检测,结合检测能力实现Job/Pod/进程多级恢复机制,全面提升昇腾384超节点在训练场景下的可靠性与容错性。

此次商汤大装置SenseCore与昇腾384超节点的成功适配,让多租户、大规模、弹性AI云服务成为可能。未来,双方还将探索更多应用场景,包括大模型推理加速、智能体应用部署、面向垂直行业的大模型训练与推理优化等,进一步加速基于SenseCore的昇腾384超节点在各行各业的应用落地。

商汤科技大装置事业群CTO宣善明表示:“商汤大装置非常重视并深度参与国产化算力生态建设。SenseCore成为首批完成昇腾384超节点适配的AI云平台,不仅得益于SenseCore平台的开放性、完善的功能和丰富的应用实践,更是国产AI基础设施融合发展的重要里程碑。SenseCore通过与昇腾的深度融合,充分释放昇腾算力潜能,为产业界提供更加敏捷、智能、可靠的算力底座,商汤也将在此基础上打造面向各行业的AI解决方案,共同推动千行百业的智能化升级”。

责编: 爱集微
来源:爱集微 #商汤科技# #华为# #超节点# # AI#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...