趋近智
活跃参数
7B
上下文长度
250K
模态
Text
架构
Mixture of Experts (MoE)
许可证
Tencent Hunyuan Community License
发布日期
30 Oct 2024
训练数据截止日期
Aug 2024
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
混合专家
专家参数总数
-
专家数量
-
活跃专家
-
共享专家数
-
FFN 中间层大小(每专家)
-
MoE 前的稠密层数
-
混元-Lite(Hunyuan Lite)是腾讯开发的一款专用文本大语言模型,旨在以紧凑的计算占用提供卓越的语言理解和推理能力。作为混元生态系统的一部分,该模型专为笔记本电脑、智能手机和车载系统等边缘设备部署而设计。其主要目标是为自然语言理解、代码生成和复杂数学问题求解提供高效的解决方案,且无需面对大规模模型常见的高资源开销。通过优化性能与延迟之间的平衡,该模型能够在内存和功耗受限的环境中实现高级 AI 集成。
7B 版本的架构采用稠密 Transformer 结构,与 Hunyuan-Large 或 Hunyuan-A13B 等大型版本所使用的专家混合(MoE)设计有所不同。该系列的一个标志性技术创新是支持 256,000 token 的超长上下文窗口,使其能够处理和分析超长文档、整本书籍或冗长的对话历史。该模型集成了分组查询注意力(GQA),以提高推理速度并减少 KV 缓存(KV cache)的内存占用。此外,它还具有独特的双模式推理能力,允许用户在用于即时响应的“快思考”模式和利用思维链(CoT)处理深度分析任务的“慢思考”模式之间进行切换。
混元-Lite 针对多样化部署进行了优化,并兼容 vLLM、SGLang 和 TensorRT-LLM 等主流推理框架。该模型采用旋转位置编码(RoPE)方案,以保持在扩展上下文窗口中的稳定性,并在前馈层中使用 SwiGLU 激活函数以增强表达能力。它专为智能体(Agent)工作流打造,在工具调用和结构化数据生成方面表现出极高的熟练度。以社区许可证发布的开放权重便于用户进行专门的微调,并将其集成到私域知识引擎和自动化助手平台中。
具备多种能力的腾讯混元大语言模型。
没有可用的 Hunyuan Lite 评估基准。
APX AI
在线