ApX 标志ApX 标志

趋近智

Hunyuan Lite

活跃参数

7B

上下文长度

250K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Tencent Hunyuan Community License

发布日期

30 Oct 2024

训练数据截止日期

Aug 2024

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

Absolute Position Embedding

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

混合专家

专家参数总数

-

专家数量

-

活跃专家

-

共享专家数

-

FFN 中间层大小(每专家)

-

MoE 前的稠密层数

-

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 4.1k · Context: 250Kx 32 layersRMSNormPre-AttentionMulti-Head Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNSparse MoE FFNSwiGLU+Final RMSNormOutput Logits

Hunyuan Lite

混元-Lite(Hunyuan Lite)是腾讯开发的一款专用文本大语言模型,旨在以紧凑的计算占用提供卓越的语言理解和推理能力。作为混元生态系统的一部分,该模型专为笔记本电脑、智能手机和车载系统等边缘设备部署而设计。其主要目标是为自然语言理解、代码生成和复杂数学问题求解提供高效的解决方案,且无需面对大规模模型常见的高资源开销。通过优化性能与延迟之间的平衡,该模型能够在内存和功耗受限的环境中实现高级 AI 集成。

7B 版本的架构采用稠密 Transformer 结构,与 Hunyuan-Large 或 Hunyuan-A13B 等大型版本所使用的专家混合(MoE)设计有所不同。该系列的一个标志性技术创新是支持 256,000 token 的超长上下文窗口,使其能够处理和分析超长文档、整本书籍或冗长的对话历史。该模型集成了分组查询注意力(GQA),以提高推理速度并减少 KV 缓存(KV cache)的内存占用。此外,它还具有独特的双模式推理能力,允许用户在用于即时响应的“快思考”模式和利用思维链(CoT)处理深度分析任务的“慢思考”模式之间进行切换。

混元-Lite 针对多样化部署进行了优化,并兼容 vLLM、SGLang 和 TensorRT-LLM 等主流推理框架。该模型采用旋转位置编码(RoPE)方案,以保持在扩展上下文窗口中的稳定性,并在前馈层中使用 SwiGLU 激活函数以增强表达能力。它专为智能体(Agent)工作流打造,在工具调用和结构化数据生成方面表现出极高的熟练度。以社区许可证发布的开放权重便于用户进行专门的微调,并将其集成到私域知识引擎和自动化助手平台中。

关于 Hunyuan

具备多种能力的腾讯混元大语言模型。


其他 Hunyuan 模型

评估基准

没有可用的 Hunyuan Lite 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B-

60 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
122k
244k

所需显存:

推荐 GPU

Hunyuan Lite:规格和 GPU 显存要求