GreenMind-14B-R1

开源

开放权重

参数

14B

上下文长度

33K

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

23 Sept 2024

训练数据截止日期

Sep 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

31.08 GB VRAM

消费级

2x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

32768 个令牌

36.54 GB VRAM

消费级

2x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 GreenMind-14B-R1 评估基准。

排名

编程排名

关于 GreenMind-14B-R1

GreenMind-14B-R1 是由 GreenNode 开发的一款拥有 147 亿参数的越南语推理模型。它是一个基于 Qwen2.5-14B-Instruct 基础架构衍生的稠密（dense）、仅解码器（decoder-only）Transformer 模型。该模型专门针对越南语的多步逻辑推理和高保真文本生成而设计，解决了长链条推理中常见的语言混杂和事实漂移等局限性。通过应用思维链（CoT）方法，GreenMind 旨在将复杂的查询分解为中间逻辑步骤，然后再生成最终回复。

该模型采用了一种名为组相对策略优化（GRPO）的专门微调策略，在保持计算效率的同时优化了推理过程。这一训练方法辅以一个精选的越南语指令数据集，其中包含超过 55,000 个涵盖文化、法律和教育领域的样本。为了确保语言一致性，训练流水线集成了特定的奖励函数和基于 Sentence Transformer 的验证，以防止非越南语字符的侵入，并保持推理路径的事实完整性。

GreenMind-14B-R1 针对 NVIDIA NIM 部署进行了优化，适用于企业级应用，包括法律和金融助手、上下文感知对话智能体以及复杂的文档检索系统。该架构支持高达 131,072 个 token 的输入处理上下文长度，最大生成限制为 8,192 个 token。它集成了 RoPE 位置嵌入和 SwiGLU 激活函数等现代 Transformer 技术，使其成为越南本土化 AI 基础设施中具备高度技术先进性的工具。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

位置嵌入

Absolute Position Embedding

RoPE Theta

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

FFN 中间层大小（稠密层）

多 Token 预测头数

分词器

词汇量大小

模型完整性

总分

B+

72 / 100

上游

21.5 / 30

模型

29.5 / 40

下游

21.0 / 30

资源

官方文档阅读论文下载权重源代码

关于 GreenMind

GreenMind 是由 GreenNode 开发的开源越南语推理语言模型系列。它针对越南语的多步推理任务（如逻辑、数学和情景分析）进行了优化。该模型旨在单 GPU 硬件配置下高效运行。

其他 GreenMind 模型

没有相关模型