Hunyuan Lite

开源

开放权重

活跃参数

上下文长度

250K

模态

Text

架构

Mixture of Experts (MoE)

许可证

Tencent Hunyuan Community License

发布日期

30 Oct 2024

训练数据截止日期

Aug 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

16.34 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

250000 个令牌

50.61 GB VRAM

消费级

3x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 Hunyuan Lite 评估基准。

排名

编程排名

关于 Hunyuan Lite

混元-Lite（Hunyuan Lite）是腾讯开发的一款专用文本大语言模型，旨在以紧凑的计算占用提供卓越的语言理解和推理能力。作为混元生态系统的一部分，该模型专为笔记本电脑、智能手机和车载系统等边缘设备部署而设计。其主要目标是为自然语言理解、代码生成和复杂数学问题求解提供高效的解决方案，且无需面对大规模模型常见的高资源开销。通过优化性能与延迟之间的平衡，该模型能够在内存和功耗受限的环境中实现高级 AI 集成。

7B 版本的架构采用稠密 Transformer 结构，与 Hunyuan-Large 或 Hunyuan-A13B 等大型版本所使用的专家混合（MoE）设计有所不同。该系列的一个标志性技术创新是支持 256,000 token 的超长上下文窗口，使其能够处理和分析超长文档、整本书籍或冗长的对话历史。该模型集成了分组查询注意力（GQA），以提高推理速度并减少 KV 缓存（KV cache）的内存占用。此外，它还具有独特的双模式推理能力，允许用户在用于即时响应的“快思考”模式和利用思维链（CoT）处理深度分析任务的“慢思考”模式之间进行切换。

混元-Lite 针对多样化部署进行了优化，并兼容 vLLM、SGLang 和 TensorRT-LLM 等主流推理框架。该模型采用旋转位置编码（RoPE）方案，以保持在扩展上下文窗口中的稳定性，并在前馈层中使用 SwiGLU 激活函数以增强表达能力。它专为智能体（Agent）工作流打造，在工具调用和结构化数据生成方面表现出极高的熟练度。以社区许可证发布的开放权重便于用户进行专门的微调，并将其集成到私域知识引擎和自动化助手平台中。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

混合专家

专家参数总数

专家数量

活跃专家

共享专家数

FFN 中间层大小（每专家）

MoE 前的稠密层数

模型完整性

总分

B-

60 / 100

上游

18.5 / 30

模型

24.0 / 40

下游

17.5 / 30

资源

官方文档下载权重源代码

关于 Hunyuan

具备多种能力的腾讯混元大语言模型。