CroissantLLM Base

开源

开放权重

参数

1.3B

上下文长度

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

29 Feb 2024

训练数据截止日期

Nov 2023

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

4.44 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

2048 个令牌

4.65 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 CroissantLLM Base 评估基准。

排名

编程排名

关于 CroissantLLM Base

CroissantLLM Base 是一款拥有 13 亿参数的仅解码器（decoder-only）Transformer 模型，旨在提供均衡的法英双语能力。与许多将非英语视为次要语言（仅包含少量数据）的当代大语言模型不同，CroissantLLM 在预训练时采用了严格均衡的 1:1 法语和英语数据比例。这一架构选择旨在减轻语言偏见，并确保法语文化和技术知识能以与英语同等的忠实度得到呈现。该模型在 3 万亿个 token 上进行了训练，这一庞大的语料库规模超过了同类中许多大型开源模型的训练量。

在技术上，该模型基于 Llama 架构，并整合了旋转位置编码（RoPE）和 RMSNorm 等成熟组件，以稳定深层网络激活。为了优化双语应用场景，开发人员引入了基于 SentencePiece 的自定义分词器，该分词器是在法语、英语和代码的高质量混合数据上训练而成的。与标准多语言分词器相比，该分词器在法语文本上的分词率（fertility rates）显著降低，从而提高了计算效率和模型捕捉语言细微差别的能力。该架构包含 24 层，隐藏层维度为 2048，拥有 16 个注意力头，采用稠密结构，未使用专家混合（MoE）技术。

CroissantLLM Base 专为在消费级硬件上实现高性能而设计，适用于在个人电脑和移动系统等本地设备上部署。其训练历史高度透明，研究人员发布了预训练数据的详尽细节，并在整个训练过程中提供了各阶段检查点（checkpoints）的访问权限。该模型可作为各种下游任务的基础，特别是在以法语为中心的环境下的翻译和内容生成任务中，其专门的词汇表和均衡的训练使其相较于主要基于英语数据集训练的模型具有明显优势。

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

键值头

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

FFN 中间层大小（稠密层）

5,504

多 Token 预测头数

分词器

词汇量大小

32,000

模型完整性

总分

B+

82 / 100

上游

25.5 / 30

模型

32.0 / 40

下游

24.5 / 30

资源

官方文档发布说明阅读论文下载权重源代码

关于 CroissantLLM

CroissantLLM 是由法国研究机构开发的法英双语语言模型。该模型在精心挑选的法英混合数据集上进行训练，在提供语言理解能力的同时，也致力于传承法国的语言文化遗产。该模型专为在消费级硬件上实现低资源推理而设计。

其他 CroissantLLM 模型

没有相关模型