趋近智
注意力
注意力结构
Grouped-Query Attention
注意力头
64
键值头
8
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
Layer Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
40
FFN 中间层大小(稠密层)
12,288
多 Token 预测头数
-
分词器
词汇量大小
151,936
Qwen3-8B 是由阿里巴巴开发的稠密因果语言模型(dense causal language model),属于 Qwen3 系列。它包含约 82 亿个参数,旨在多种自然语言处理任务中实现高效性能。Qwen3 系列的一个显著特点是集成了用于复杂逻辑推理、数学和编程的“思考”模式,以及针对通用对话优化的“非思考”模式。这种设计使得模型能够根据任务需求动态调整运行特性,而无需在不同模型之间进行切换。
Qwen3-8B 的架构基础是仅解码器(decoder-only)Transformer,并引入了 qk layernorm 以增强稳定性,同时利用分组查询注意力(GQA)技术,通过在多个 Query 头之间共享 Key/Value 头来优化推理速度和显存利用率。其训练过程分为三个阶段:第一阶段(S1)在超过 119 种语言、逾 36 万亿 token 的数据上进行大规模预训练,以构建广泛的语言能力和通用知识;第二阶段(S2)通过增加 STEM、编程和推理数据的比例,专门优化推理技能;第三阶段通过将原生训练序列长度扩展至 32,768 个 token 来提升长上下文理解能力。通过 YaRN 方法,其上下文长度可进一步扩展至 131,072 个 token。
Qwen3-8B 展现了增强的推理能力和卓越的人类偏好对齐,使其在创意写作、角色扮演、多轮对话和精确指令遵循等应用中表现出色。此外,它还具备智能体(agent)能力,支持与外部工具集成以处理复杂的智能体任务。该模型提供全面的多语言支持,涵盖 100 多种语言和方言,助力实现多语言指令遵循和翻译。
阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。
排名
#40
| 基准 | 分数 | 排名 |
|---|---|---|
通用知识 MMLU | 0.852 | 14 |
APX AI
在线