阿里发布Qwen3-Coder,为4800亿参数开源代码模型

来源:爱集微 #阿里# #Qwen# #开源#
2247

近日,阿里巴巴集团正式发布了全新开源代码模型 Qwen3-Coder,引起了广泛关注。此次发布的 Qwen3-Coder-480B-A35B-Instruct(以下简称 Qwen3-Coder)是该系列中最强大的版本,拥有高达4,800亿的总参数量和350亿的激活参数,原生支持256K token的上下文,并可扩展到1百万token,支持358种编程语言。

Qwen3-Coder采用了混合专家(MoE)模型架构,配备了96个查询(Q)注意力头和8个键/值(KV)注意力头,拥有160个专家,其中8个专家被激活。在预训练阶段,该模型从数据、上下文和合成数据三个角度进行扩展,以提升代码能力;在后训练阶段,研究团队通过在真实代码任务上扩展代码强化学习(Code RL)训练,显著提升了代码执行成功率。

值得一提的是,Qwen3-Coder在代理式编码、代理式浏览器使用和代理式工具使用上达到了开源模型的领先水平,媲美Claude Sonnet 4。其代码库上线一小时便收获了5.1k Star,足见其受欢迎程度。此外,阿里还推出了基于Qwen3-Coder的命令行工具Qwen Code,进一步提升了其在代理式编程任务上的表现。

Qwen3-Coder的发布是阿里Qwen3系列模型的最新进展。三个月前,阿里发布了Qwen3系列,包括两款MoE模型和六款密集模型。其中的旗舰模型Qwen3-235B-A22B,总参数量高达2,350亿,激活参数为220亿。此次发布的Qwen3-Coder取消了混合思维模式,专注于非思考模式,以获得最佳质量。

责编: 姜羽桐
来源:爱集微 #阿里# #Qwen# #开源#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...