ApX 标志ApX 标志

趋近智

Qwen3-8B

参数

8B

上下文长度

131.072K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

29 Apr 2025

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

64

键值头

8

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

40

FFN 中间层大小(稠密层)

12,288

多 Token 预测头数

-

分词器

词汇量大小

151,936

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 131.1k · Vocab: 151.9kx 40 layersLayerNormPre-AttentionGrouped-Query Attention64Q / 8KV headsHead dim: 128+LayerNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 12.3k+Final LayerNormOutput Logits

Qwen3-8B

Qwen3-8B 是由阿里巴巴开发的稠密因果语言模型(dense causal language model),属于 Qwen3 系列。它包含约 82 亿个参数,旨在多种自然语言处理任务中实现高效性能。Qwen3 系列的一个显著特点是集成了用于复杂逻辑推理、数学和编程的“思考”模式,以及针对通用对话优化的“非思考”模式。这种设计使得模型能够根据任务需求动态调整运行特性,而无需在不同模型之间进行切换。

Qwen3-8B 的架构基础是仅解码器(decoder-only)Transformer,并引入了 qk layernorm 以增强稳定性,同时利用分组查询注意力(GQA)技术,通过在多个 Query 头之间共享 Key/Value 头来优化推理速度和显存利用率。其训练过程分为三个阶段:第一阶段(S1)在超过 119 种语言、逾 36 万亿 token 的数据上进行大规模预训练,以构建广泛的语言能力和通用知识;第二阶段(S2)通过增加 STEM、编程和推理数据的比例,专门优化推理技能;第三阶段通过将原生训练序列长度扩展至 32,768 个 token 来提升长上下文理解能力。通过 YaRN 方法,其上下文长度可进一步扩展至 131,072 个 token。

Qwen3-8B 展现了增强的推理能力和卓越的人类偏好对齐,使其在创意写作、角色扮演、多轮对话和精确指令遵循等应用中表现出色。此外,它还具备智能体(agent)能力,支持与外部工具集成以处理复杂的智能体任务。该模型提供全面的多语言支持,涵盖 100 多种语言和方言,助力实现多语言指令遵循和翻译。

关于 Qwen 3

阿里巴巴 Qwen 3 模型系列涵盖了稠密(dense)和混合专家(MoE)架构,参数量范围从 0.6B 到 235B。其核心创新包括一套混合推理系统,提供“思考”与“非思考”模式以实现自适应处理,并支持超长上下文窗口,从而显著提升了效率与可扩展性。


其他 Qwen 3 模型

评估基准

排名

#40

基准分数排名

通用知识

MMLU

0.852

14

排名

排名

#40

编程排名

-

模型完整性

总分

B

70 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
64k
128k

所需显存:

推荐 GPU