趋近智
活跃参数
480B
上下文长度
262.144K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
22 Jul 2025
训练数据截止日期
Dec 2024
注意力
注意力结构
Multi-Head Attention
注意力头
96
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
6,144
层数
62
FFN 中间层大小(稠密层)
2,560
多 Token 预测头数
-
分词器
词汇量大小
151,936
混合专家
专家参数总数
35.0B
专家数量
160
活跃专家
8
共享专家数
-
FFN 中间层大小(每专家)
2,560
MoE 前的稠密层数
-
Qwen3 Coder 480B A35B 是阿里巴巴推出的先进智能体人工智能模型,专为高性能软件开发和自主编码工作流而设计。作为通义千问 3 (Qwen 3) 系列的专业化变体,它旨在处理复杂的多轮编程任务,包括全面的代码库分析、跨文件推理以及自动生成的 Pull Request。该模型作为自主软件工程的核心引擎,能够与开发工具及 Qwen Code 等基于终端的智能体深度集成。
在架构上,该模型采用了稀疏混合专家(MoE)仅解码器(decoder-only)Transformer 框架。它包含总计 4800 亿个参数,同时通过在每次推理查询中仅激活 350 亿个参数来保持计算效率。此配置共部署了 160 个专家,每个 token 通过门控机制选择 8 个激活专家。其底层结构包含 62 个 Transformer 层,并引入了具有 96 个查询头(query heads)和 8 个键值头(key-value heads)的分组查询注意力(GQA)机制,以优化显存带宽和推理速度。该模型利用旋转位置嵌入(RoPE),并通过 YaRN 等技术针对长程上下文进行了优化,支持 262,144 个 token 的原生上下文窗口,并可扩展至 100 万个。
该模型在 7.5 万亿 token 的海量数据集上进行了训练,其中 70% 集中在源代码和技术内容,涵盖 Python、JavaScript、C++ 和 Rust 等多种编程语言。其训练后阶段利用了长程强化学习(特别是 Agent RL 和 Code RL),以提升多步规划以及与浏览器和命令行(CLI)等外部工具的交互能力。这种专业化使该模型能够作为高级编程智能体运行,以极高的精度执行复杂的工程任务并管理整个代码库。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
排名
#82
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1281 | 65 |
APX AI
在线