不只是芯片！加入寒武纪，构筑领先的人工智能软件系统

作者：爱集微 2小时前

来源：寒武纪 #寒武纪#

1597

我们正处于人工智能技术大爆发的时代，各类大模型的规模和能力在快速迭代增强，基于这些模型的新AI工具和应用正在快速涌现。随着AI工具和应用在工业界的广泛使用，生产效率得到了极大的提升，业务创新正变得比以往任何时候都要便捷和便宜。以往需要数百人才能完成的创新产品，现在可能只需要三四个人就能够完成开发、上线、运营。这是人工智能时代带来的红利，同时也是对人工智能基础设施的巨大挑战。现在比以往任何时候都需要更大的AI算力和更稳定可靠的AI基础设施。

寒武纪的使命是为客户创造价值，成为持续创新的智能时代领导者。要达成这一目标，芯片和硬件是基础，软件则是释放芯片和硬件潜能、实现价值落地的核心驱动力。自成立以来，寒武纪在芯片领域持续创新和技术攻关，累计研发了五代智能处理器、九颗智能芯片和基础软件平台，为数万台云服务器提供智能算力，为国内相关龙头企业提供芯片核心器件和软件栈。为了充分释放和发挥芯片的强大性能，让用户将芯片高效应用于大模型推理和训练、大规模搜索推荐的推理与训练、文生视觉推理和训练等各类人工智能场景，寒武纪以芯片为基础，以软件为核心纽带，交付了一整套易用、好用的人工智能软硬件协同系统。软件是和用户交流的第一界面，软件系统决定了用户的体验。寒武纪通过系统软件、编译器、算子库、分布式通信库、框架、解决方案及配套工具等构建了一套帮助用户实现应用快速迁移、高效部署的软件系统。加入软件团队，你将能够深入硬件底层架构，参与软硬协同设计，掌握从芯片到算法、软件、解决方案的全栈技能！

寒武纪期待同学们的加入，共同将软件工作置于战略核心位置，攻坚构建先进的人工智能软硬件系统，打造具备极致性能、高可靠性和高易用性的人工智能软件栈，为工业界提供普惠易用的高性能人工智能基础设施，以软件的创新突破驱动硬件价值最大化，为中国人工智能生态的蓬勃发展注入核心动力。

一高易用性

01深度学习框架及生态组件开发团队

我们专注于深度学习框架（PyTorch、TensorFlow）及生态组件（vLLM、SGlang、Megatron-lm、Transformer-Engine、Flash-attention、DeepSpeed、Diffusers、comfyui 等）的研发与优化。

在用户体验层面，我们致力于与社区开源框架和组件保持高度兼容，让用户的业务模型代码能够低成本、无感知地迁移到不同硬件平台，复用已有的调试与优化经验。

在内部技术侧，我们肩负着将自研 AI 加速板卡的算力充分释放到极致的使命：

打造高效的框架适配与优化方案，让硬件潜能百分百转化为模型的性能提升；
持续优化推理与训练全链路，从单卡算子调优到大规模分布式调度，覆盖毫秒级极致延迟、极限吞吐以及万卡级稳定训练等挑战场景；
快速跟进社区版本演进，做到天级别模型适配、周级别框架同步发版。

加入框架团队，你将有机会：

深入参与 AI 框架与生态的研发，系统掌握深度学习框架的原理与运行机制，第一时间实现社区最新特性；
参与核心性能优化与底层硬件适配，让海量模型在自研硬件平台上高效运行；
与全球顶尖开源社区、科研机构和产业团队协作，共同推动 AI 计算生态发展；
积累推理与训练的实战经验，在真实业务场景中磨炼技术能力；
主导或参与关键开源贡献，让你的技术成果被全球开发者使用与认可。

02编译器团队

编译器团队负责工具链的开发，包括各类编译器，链接器，汇编器，调试器，性能分析工具、Sanitizer等组件。

加入编译器团队，你可以学习到业界领先的编译器技术，基于MLIR/LLVM技术打造最前沿的AI芯片编译器工具链。在这里，你可以与顶级编译器专家一起，基于MLIR开发完全兼容OpenAI-Triton语言规范的编译器，通过兼容社区开发的Triton算子，显著降低算子开发的技术门槛。在这里，你也可以基于Clang/LLVM，构建面向MLU的BANG C编程语言和工具链，持续挖掘硬件的极致性能。在这里，你可以与算法和硬件团队密切协作，通过分析典型场景的功能和性能需求，持续优化MLU硬件的性能和易用性。

03寒武纪智能体开发团队

寒武纪智能体团队开发基于Deepseek模型的Agent，融合了寒武纪软件知识库和BangC以及Triton的算子开发教程，能够回答用户关于寒武纪软件栈的一般问题，根据用户的提示生成Triton和BangC算子，辅助用户进行算子开发，提升用户的开发效率。

加入智能体团队，你可以快速了解如何利用最新最强大的开源模型构建智能体，如何利用智能体服务于我们的客户去解决最迫切和最困难的自动算子生成任务，如何基于寒武纪的硬件部署高效的推理引擎服务用户。

高易用性的工作贯穿在所有组件中，在工作中，基于自身研发的经验，和用户的反馈，我们会持续不断的提升易用性，将困难和复杂留在内部解决，将简单易用的借口提供给用户。

加入寒武纪，无论处于任何组，你都可以积极的发掘进一步提升易用性的机会。

二极致性能

01计算库团队

寒武纪计算库团队，面向大语言模型、图像/视频生成和搜索推荐等业务场景，使用汇编指令、BangC语言、Triton语言和模板库，在寒武纪智能计算系统上开发高性能算子。计算库团队与芯片架构、编译器、通信库、框架团队无缝协作，软硬件协同优化，充分挖掘寒武纪智能计算系统的潜力，打造业界领先的稳定高效的算子库。

加入计算库团队，你可以接触到业界最前沿的人工智能算法，在业界领先的智能芯片架构上做前沿算法的计算优化，探索提升智能计算系统效率的原创性软硬件方法，铸牢超大规模智能计算集群的软件基础，为打造自主可控的人工智能软硬件生态贡献自己的力量。

02分布式团队

寒武纪分布式团队，依托寒武纪领先的通信加速底层架构，充分发挥底层潜力，在微秒级优化通信延迟，与编译器和架构团队紧密合作，在指令层级优化代码，精益求精，打造极致低时延和高带宽利用率的通信库，服务于大规模分布式训练和分布式推理场景，为业务取得极致性能打下基础。

加入分布式团队，你可以接触到大规模AI集群网络技术，构建高性能、高可靠、灵活易用的网络基础设施，共同探索前沿的软硬件协同设计方案，实现面向加速器的远程直接内存访问、在网计算、端网协同等技术，面向推理/训练场景的低延迟和高带宽优化技术、通算融合算子开发，与团队一起打造AI训练/推理领域的通信解决方案。

03推理与训练解决方案团队

推理与训练解决方案团队会联合分布式团队和算子团队共同挑战分布式系统的效率极限，例如在大EP并行方向上如何同时取得极低时延和高带宽，在大模型训练和推理中如何利用通算并行隐藏通信开销，在实际业务部署中帮助用户的业务达成业界领先的计算效率。

加入推理解决方案团队，你可以和我们一起在开源大模型推理引擎vLLM上部署DeepSeek/Qwen3/Kimi K2等主流的大语言模型，探索并落地如 PD 分离、AFD分离、大规模专家并行、通信计算并行等业界前沿的分布式推理性能优化技术，也可以和我们一起在 Diffusers框架上部署和优化业界主流的图像生成模型（如 Flux）、视频生成模型（如 Wan2.2），在这里，你可以将推理框架优化、算法优化、算子优化、分布式通信优化等技术综合应用到工程实践中，和我们一起打造人工智能推理领域最具竞争力的软件解决方案。

加入训练解决方案团队，你将深度参与大模型训练、搜广推优化及多模态训练等前沿领域的解决方案研发，参与DeepSeek/Qwen/OpenSora等顶尖模型的训练优化工作，参与工业级的强化学习框架（如 Verl）与寒武纪硬件的协同开发，通过融合精度分析、通信并行优化、分布式策略搜索等核心技术，构建可支撑万卡集群的高效训练体系。在这里，你的工程实践将直接推动大规模AI训练业务的规模化落地。

加入驱动团队，你可以在底层软件层面贡献力量来实现高性能的智能计算系统，例如在ns级别去优化算子下发性能到极致，达到与主流国际竞品相当甚至更优的性能，在此过程中我们可以一同研究不同CPU架构的指令性能，深度分析不同处理器体系下访存特性，实现极致性能的内核代码。此外我们还可以创新Graph任务下发方式，在海量算子的批处理效率上有成倍的性能提升，在此过中我们可以一起完成全面的竞品性能分析，寻找竞品设计的亮点以及不足，设计出更加灵活开销更低的调度算法。与此同时，作为和寒武纪芯片接触最密切的团队，我们可以通过和芯片探讨行业未来趋势，共同完成新一代的SoC设计和验证，例如通过分解、下沉、抽象等手段，将通信计算融合场景的瓶颈点转化为各个芯片模块设计需求和指标，并在仿真平台评估新模块所能达到的效果，在最终产品上体现出革命性的能力提升。

04工具团队

系统工具，集群工具，分布式和框架团队共同提供高效的离线在线数据捕获工具分析工具，能提供端到端的框架级别的调优支持，也能提供单算子视角的算子优化支持，能支持单机场景，也能够支持大规模分布式场景。在各场景下能快速定位业务热点和异常点，找到热点算子，找到host侧的瓶颈，找到热点算子中的不符合预期的片段，为后续优化提供精准的指引。

加入工具团队，你可以学习到全栈的调优工具的开发和调优经验，也能广泛参与各业务场景的性能调优和问题排查过程，从而更深入的了解大模型的大规模部署是如何调试和调优的。

对极致性能的追求也是没有止境的，我们不会止于在当前硬件上达成最优的极致性能，还必须进一步深入到硬件架构设计领域，共同探讨架构演进的可能性，为未来的硬件架构迭代做出重要的贡献。

在寒武纪，软件和硬件的协同开发是没有壁垒的，只要能看到想到提升性能的机会，就不会存在进一步探索极致性能的边界。

三高可靠性

为了支撑用户对大规模集群长时间、高强度的持续使用，寒武纪的运维平台具备大规模集群的实时故障监测与快速诊断和快速恢复能力。用户的业务系统可以进行轻量级的故障巡检，在大规模任务拉起之前就剔除异常的节点。在故障发生时，自动捞取故障现场的全栈故障信息和日志，日志分析工具可以读取集群全量日志信息自动分析辅助快速定位故障节点，根据故障类型，给用户提供合理的后续处理动作，定位后用户的业务可以根据故障的处理建议，例如重新加载驱动或者重启或者进行故障卡的更换，剔除掉故障节点后快速恢复业务运行。

高可靠性同样需要全栈的参与，随着更多更大的集群部署和落地，我们会面临更多的挑战，所有组件都需要具备前瞻性，去为x10，x100倍规模下的集群可靠性做准备。加入寒武纪，你将有机会参与超大规模集群可靠性的前沿工作，有机会与合作伙伴一起工作，获得超大业务模型部署运维的宝贵经验。