中兴微电子石义军:降本增效 RISC-V助力大模型推理优化

来源:爱集微 #石义军# #中兴微电子# #RISC-V#
1205

7月17日,2025RISC-V中国峰会在上海张江科学会堂举行。 中兴微电子副总经理石义军做题为《大语言模型推理部署RISC-V服务器应用及架构研究》的报告。

石义军表示,大语言模型在AI时代服务器当中,特别是在推理当中有非常多的应用机会。大模型最近几年的一些明显趋势,从算法架构上,从原来的Dense向MoE迁移,随着DeepSeek出现,整个计算从算力向效率转变。在CPU领域,包括RISC-V架构的CPU,在MoE这种新型架构下有非常多的机会去帮助推理的落地,其中降本增效是关键。

石义军指出,当实际部署大模型推理时,在优化TCO阶段有两大矛盾。

一是计算与带宽的驱动要素切换在两个阶段是不同的。预训练阶段,为了追求首Token的时间要求,需要比较大的算力。在Decode节,需要一定的带宽去满足任务的吞吐量的需求。

二是存储成本与数据活跃度的背离。MoE模型中,每个token只激活少数。统计下来,也许在相当长的时间内,高频使用的参数只是一个集合,但是被低频使用的参数依然要付出昂贵的存储成本。

基于这样的挑战,石义军认为在大模型推理过程当中拥有非常多的优化机会。大致而言,在端侧和边侧,在并发度比较低的时候,在CPU或者是完全基于CPU的方案具有比较好的性价比,因为整个存储成本DDR相对HBM降低非常多,这在中小企业以及私域推理应用当中是一个重点。

而在云侧,在规模化部署过程当中,如果只是使用GPU部署,成本是非常高的。如果说GPU结合CPU能做一些卸载,降低GPU的部署数量也存在一定的整体TCO的优化机会。

“我们觉得混合推理是未来的趋势,整个计算是稀疏的,同时根据使用的频度,不同的阶段,包括Decode阶段注意力方面,CPU也是可以分摊的。通过混合计算既能够提高通信效率又能够带来部署成本的下降。”石义军说。

在面对机遇的同时,石义军表示,RISC-V服务器的实际部署中也存在一些挑战。

首先是在模型架构上,算法上还会存在持续优化的机会,MoE这样的算法从长远发展来说还是有更多的优化趋势,业界也在提出不同的算法。在算力底层架构上需要新质的AI算力能够支撑更高效的计算,使得CPU在服务器上,能够提高服务器的算力利用率。在存储管理,特别是大模型要求的更长的上下文,特别是在智能体上,长上下文是非常关键的。还有对于存储的管理等方面也是非常重要的。多核的通信效率,以及为异构计算做协调也存在挑战。

在算力方面,整个RISC-V已经有了很好的基础,支持了一些AI的数据格式,但是目前大模型的算法看下来,整个模型对低比特精度的支持也是至关重要的,可以带来带宽、算力、存储大幅度的下降,所以对于提高能效非常重要。

第二个挑战是在超长上下文支持上,对未来大规模的推理应用上也是很关键。因为需要记住历史上所有的上下文信息,对存储消耗非常大。存储管理本身就是CPU的强项,现有GPU部署当中,CPU也是必不可少的一部分。未来,这一部分可以更好的发挥优势。同时如果在CPU上能够增加必要的一些算力,使得跟上下文相关的一些注意力计算,这些能够offloading,做这样一个分工就可以带来长上下文,可以处理得非常好,会带来整个TCO的优化。

“总结起来,我们有一些非常好的RISC-V在未来AI推理当中的应用机会,同时也有非常多的挑战,两者并存。好在我们有非常多的优势,首先RISC-V指令集是开放的,开放就意味着我们的使用是人人可获得的,这样一个开放性会带来更多创新,不会有非常多的限制。同时在可定制性方面,针对各个领域有非常多的方向去定制、试错,然后收敛到一些比较好的方向,将其标准化,通过这样的循环可以快速发挥RISC-V的优势。同时整个生态也是开放的,这个开放生态我们认为对AI应用来讲非常重要,只有开放的生态我们才能够在上面建构应用,建构工具链,大家通过共享这一层带来创新迭代加快。”石义军说。

责编: 姜羽桐
来源:爱集微 #石义军# #中兴微电子# #RISC-V#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...