ApX 标志ApX 标志

趋近智

Qwen3 Coder 480B A35B

活跃参数

480B

上下文长度

262.144K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

22 Jul 2025

训练数据截止日期

Dec 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

96

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

6,144

层数

62

FFN 中间层大小(稠密层)

2,560

多 Token 预测头数

-

分词器

词汇量大小

151,936

混合专家

专家参数总数

35.0B

专家数量

160

活跃专家

8

共享专家数

-

FFN 中间层大小(每专家)

2,560

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 6.1k · Context: 262.1k · Vocab: 151.9kx 62 layersRMSNormPre-AttentionMulti-Head Attention96Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (8/160 experts)SwiGLUIntermediate: 2.6k+Final RMSNormOutput Logits

Qwen3 Coder 480B A35B

Qwen3 Coder 480B A35B 是阿里巴巴推出的先进智能体人工智能模型,专为高性能软件开发和自主编码工作流而设计。作为通义千问 3 (Qwen 3) 系列的专业化变体,它旨在处理复杂的多轮编程任务,包括全面的代码库分析、跨文件推理以及自动生成的 Pull Request。该模型作为自主软件工程的核心引擎,能够与开发工具及 Qwen Code 等基于终端的智能体深度集成。

在架构上,该模型采用了稀疏混合专家(MoE)仅解码器(decoder-only)Transformer 框架。它包含总计 4800 亿个参数,同时通过在每次推理查询中仅激活 350 亿个参数来保持计算效率。此配置共部署了 160 个专家,每个 token 通过门控机制选择 8 个激活专家。其底层结构包含 62 个 Transformer 层,并引入了具有 96 个查询头(query heads)和 8 个键值头(key-value heads)的分组查询注意力(GQA)机制,以优化显存带宽和推理速度。该模型利用旋转位置嵌入(RoPE),并通过 YaRN 等技术针对长程上下文进行了优化,支持 262,144 个 token 的原生上下文窗口,并可扩展至 100 万个。

该模型在 7.5 万亿 token 的海量数据集上进行了训练,其中 70% 集中在源代码和技术内容,涵盖 Python、JavaScript、C++ 和 Rust 等多种编程语言。其训练后阶段利用了长程强化学习(特别是 Agent RL 和 Code RL),以提升多步规划以及与浏览器和命令行(CLI)等外部工具的交互能力。这种专业化使该模型能够作为高级编程智能体运行,以极高的精度执行复杂的工程任务并管理整个代码库。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#82

基准分数排名

Web 开发

WebDev Arena

1281

65

排名

排名

#82

编程排名

#77

模型完整性

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
128k
256k

所需显存:

推荐 GPU

Qwen3 Coder 480B A35B:规格和 GPU 显存要求