趋近智
参数
14B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
Apache-2.0
发布日期
23 Sept 2024
训练数据截止日期
Sep 2024
注意力
注意力结构
Multi-Head Attention
注意力头
40
键值头
8
注意力头维度
-
位置嵌入
Absolute Position Embedding
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
5,120
层数
40
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
GreenMind-14B-R1 是由 GreenNode 开发的一款拥有 147 亿参数的越南语推理模型。它是一个基于 Qwen2.5-14B-Instruct 基础架构衍生的稠密(dense)、仅解码器(decoder-only)Transformer 模型。该模型专门针对越南语的多步逻辑推理和高保真文本生成而设计,解决了长链条推理中常见的语言混杂和事实漂移等局限性。通过应用思维链(CoT)方法,GreenMind 旨在将复杂的查询分解为中间逻辑步骤,然后再生成最终回复。
该模型采用了一种名为组相对策略优化(GRPO)的专门微调策略,在保持计算效率的同时优化了推理过程。这一训练方法辅以一个精选的越南语指令数据集,其中包含超过 55,000 个涵盖文化、法律和教育领域的样本。为了确保语言一致性,训练流水线集成了特定的奖励函数和基于 Sentence Transformer 的验证,以防止非越南语字符的侵入,并保持推理路径的事实完整性。
GreenMind-14B-R1 针对 NVIDIA NIM 部署进行了优化,适用于企业级应用,包括法律和金融助手、上下文感知对话智能体以及复杂的文档检索系统。该架构支持高达 131,072 个 token 的输入处理上下文长度,最大生成限制为 8,192 个 token。它集成了 RoPE 位置嵌入和 SwiGLU 激活函数等现代 Transformer 技术,使其成为越南本土化 AI 基础设施中具备高度技术先进性的工具。
GreenMind 是由 GreenNode 开发的开源越南语推理语言模型系列。它针对越南语的多步推理任务(如逻辑、数学和情景分析)进行了优化。该模型旨在单 GPU 硬件配置下高效运行。
没有可用的 GreenMind-14B-R1 评估基准。
APX AI
在线