趋近智
活跃参数
480B
上下文长度
262K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Apache 2.0
发布日期
22 Jul 2025
训练数据截止日期
Dec 2024
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
58x RTX 4090
24GB VRAM
数据中心
15x NVIDIA A100
80GB VRAM
Apple Silicon
12x Apple M3 Max
128GB VRAM
262144 个令牌
消费级
63x RTX 4090
24GB VRAM
数据中心
17x NVIDIA A100
80GB VRAM
Apple Silicon
13x Apple M3 Max
128GB VRAM
排名
#91
| 基准 | 分数 | 排名 |
|---|---|---|
通用文本 Text Arena | 1388 | 60 |
Web 开发 WebDev Arena | 1282 | 83 |
排名
#91
编程排名
#92
Qwen3 Coder 480B A35B 是阿里巴巴推出的先进智能体人工智能模型,专为高性能软件开发和自主编码工作流而设计。作为通义千问 3 (Qwen 3) 系列的专业化变体,它旨在处理复杂的多轮编程任务,包括全面的代码库分析、跨文件推理以及自动生成的 Pull Request。该模型作为自主软件工程的核心引擎,能够与开发工具及 Qwen Code 等基于终端的智能体深度集成。
在架构上,该模型采用了稀疏混合专家(MoE)仅解码器(decoder-only)Transformer 框架。它包含总计 4800 亿个参数,同时通过在每次推理查询中仅激活 350 亿个参数来保持计算效率。此配置共部署了 160 个专家,每个 token 通过门控机制选择 8 个激活专家。其底层结构包含 62 个 Transformer 层,并引入了具有 96 个查询头(query heads)和 8 个键值头(key-value heads)的分组查询注意力(GQA)机制,以优化显存带宽和推理速度。该模型利用旋转位置嵌入(RoPE),并通过 YaRN 等技术针对长程上下文进行了优化,支持 262,144 个 token 的原生上下文窗口,并可扩展至 100 万个。
该模型在 7.5 万亿 token 的海量数据集上进行了训练,其中 70% 集中在源代码和技术内容,涵盖 Python、JavaScript、C++ 和 Rust 等多种编程语言。其训练后阶段利用了长程强化学习(特别是 Agent RL 和 Code RL),以提升多步规划以及与浏览器和命令行(CLI)等外部工具的交互能力。这种专业化使该模型能够作为高级编程智能体运行,以极高的精度执行复杂的工程任务并管理整个代码库。
注意力
注意力结构
Multi-Head Attention
注意力头
96
键值头
8
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
6,144
层数
62
FFN 中间层大小(稠密层)
2,560
多 Token 预测头数
-
分词器
词汇量大小
151,936
混合专家
专家参数总数
35.0B
专家数量
160
活跃专家
8
共享专家数
-
FFN 中间层大小(每专家)
2,560
MoE 前的稠密层数
-
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
APX AI
在线