ApX 标志ApX 标志

趋近智

Hunyuan A13B

活跃参数

80B

上下文长度

256K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Apache 2.0

发布日期

25 Jun 2025

训练数据截止日期

-

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

169.64 GB VRAM

消费级

9x RTX 4090

24GB VRAM

数据中心

3x NVIDIA A100

80GB VRAM

Apple Silicon

2x Apple M3 Max

128GB VRAM

256000 个令牌

204.73 GB VRAM

消费级

10x RTX 4090

24GB VRAM

数据中心

3x NVIDIA A100

80GB VRAM

Apple Silicon

2x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 256K · Vocab: 128.2kx 32 layersRMSNormPre-AttentionMulti-Head Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFN (8/65 experts)SwiGLUIntermediate: 3.1k+Final RMSNormOutput Logits

评估基准

没有可用的 Hunyuan A13B 评估基准。

排名

排名

-

编程排名

-

关于 Hunyuan A13B

腾讯混元(Hunyuan)A13B 是一款采用混合专家(MoE)架构工程化的大语言模型,拥有 800 亿总参数量,其中在推理过程中激活的参数量为 130 亿。这种设计方法旨在优化计算效率,同时保持强大的性能表现。该模型作为开源资源发布,旨在为研究人员和开发者在需要谨慎考虑资源分配的场景中提供先进的 AI 解决方案。它的开发解决了扩展大语言模型的挑战,通过提供一种框架,在不要求每个任务都全量激活所有参数的情况下,实现了极大的模型容量。

Hunyuan A13B 的核心创新在于其稀疏 MoE 架构,该架构能够动态地将输入路由到专门的“专家”神经网络子集中。具体而言,该架构包含 32 层,并结合了 SwiGLU 激活函数。它利用分组查询注意力(GQA)来提高推理效率并减少处理过程中的内存占用。一个显著特点是其混合推理模式,使模型能够根据输入的复杂程度,在快速响应的“快思考”模式和处理复杂、多步骤问题的“慢思考”模式之间动态调整处理深度。该模型在超过 20 万亿 token 的庞大语料库上进行训练,其中特别强调了科学、技术、工程和数学(STEM)领域的数据。

Hunyuan A13B 支持高达 256,000 token 的超长上下文窗口,有助于对长文档或持久对话序列进行全面的理解和内容生成。该模型针对智能体(Agent)任务进行了优化,在数学推理、逻辑分析和复杂指令遵循等领域展现了出色的能力。其设计强调高效推理,支持包括 FP8 和 INT4 在内的多种量化格式,使其能够部署在具有不同硬件规格的环境中。这使得它适用于既需要强大的语言处理能力又需要优化计算资源利用的应用,甚至有可能在单个中端 GPU 上运行。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

8

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

3,072

多 Token 预测头数

-

分词器

词汇量大小

128,167

混合专家

专家参数总数

13.0B

专家数量

65

活跃专家

8

共享专家数

1

FFN 中间层大小(每专家)

3,072

MoE 前的稠密层数

-

模型完整性

总分

B

65 / 100

关于 Hunyuan

具备多种能力的腾讯混元大语言模型。


其他 Hunyuan 模型
Hunyuan A13B:规格和 GPU 显存要求