趋近智
参数
1.3B
上下文长度
2K
模态
Text
架构
Dense
许可证
Apache-2.0
发布日期
29 Feb 2024
训练数据截止日期
Nov 2023
注意力
注意力结构
Multi-Head Attention
注意力头
16
键值头
16
注意力头维度
128
位置嵌入
Absolute Position Embedding
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
2,048
层数
24
FFN 中间层大小(稠密层)
5,504
多 Token 预测头数
-
分词器
词汇量大小
32,000
CroissantLLM Base 是一款拥有 13 亿参数的仅解码器(decoder-only)Transformer 模型,旨在提供均衡的法英双语能力。与许多将非英语视为次要语言(仅包含少量数据)的当代大语言模型不同,CroissantLLM 在预训练时采用了严格均衡的 1:1 法语和英语数据比例。这一架构选择旨在减轻语言偏见,并确保法语文化和技术知识能以与英语同等的忠实度得到呈现。该模型在 3 万亿个 token 上进行了训练,这一庞大的语料库规模超过了同类中许多大型开源模型的训练量。
在技术上,该模型基于 Llama 架构,并整合了旋转位置编码(RoPE)和 RMSNorm 等成熟组件,以稳定深层网络激活。为了优化双语应用场景,开发人员引入了基于 SentencePiece 的自定义分词器,该分词器是在法语、英语和代码的高质量混合数据上训练而成的。与标准多语言分词器相比,该分词器在法语文本上的分词率(fertility rates)显著降低,从而提高了计算效率和模型捕捉语言细微差别的能力。该架构包含 24 层,隐藏层维度为 2048,拥有 16 个注意力头,采用稠密结构,未使用专家混合(MoE)技术。
CroissantLLM Base 专为在消费级硬件上实现高性能而设计,适用于在个人电脑和移动系统等本地设备上部署。其训练历史高度透明,研究人员发布了预训练数据的详尽细节,并在整个训练过程中提供了各阶段检查点(checkpoints)的访问权限。该模型可作为各种下游任务的基础,特别是在以法语为中心的环境下的翻译和内容生成任务中,其专门的词汇表和均衡的训练使其相较于主要基于英语数据集训练的模型具有明显优势。
CroissantLLM 是由法国研究机构开发的法英双语语言模型。该模型在精心挑选的法英混合数据集上进行训练,在提供语言理解能力的同时,也致力于传承法国的语言文化遗产。该模型专为在消费级硬件上实现低资源推理而设计。
没有可用的 CroissantLLM Base 评估基准。
APX AI
在线