ApX 标志ApX 标志

趋近智

CroissantLLM Base

参数

1.3B

上下文长度

2K

模态

Text

架构

Dense

许可证

Apache-2.0

发布日期

29 Feb 2024

训练数据截止日期

Nov 2023

技术规格

注意力

注意力结构

Multi-Head Attention

注意力头

16

键值头

16

注意力头维度

128

位置嵌入

Absolute Position Embedding

RoPE Theta

10,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

2,048

层数

24

FFN 中间层大小(稠密层)

5,504

多 Token 预测头数

-

分词器

词汇量大小

32,000

架构图

Input TokensToken EmbeddingPosition: AbsoluteHidden: 2k · Context: 2K · Vocab: 32kx 24 layersRMSNormPre-AttentionMulti-Head Attention16Q / 16KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 5.5k+Final RMSNormOutput Logits

CroissantLLM Base

CroissantLLM Base 是一款拥有 13 亿参数的仅解码器(decoder-only)Transformer 模型,旨在提供均衡的法英双语能力。与许多将非英语视为次要语言(仅包含少量数据)的当代大语言模型不同,CroissantLLM 在预训练时采用了严格均衡的 1:1 法语和英语数据比例。这一架构选择旨在减轻语言偏见,并确保法语文化和技术知识能以与英语同等的忠实度得到呈现。该模型在 3 万亿个 token 上进行了训练,这一庞大的语料库规模超过了同类中许多大型开源模型的训练量。

在技术上,该模型基于 Llama 架构,并整合了旋转位置编码(RoPE)和 RMSNorm 等成熟组件,以稳定深层网络激活。为了优化双语应用场景,开发人员引入了基于 SentencePiece 的自定义分词器,该分词器是在法语、英语和代码的高质量混合数据上训练而成的。与标准多语言分词器相比,该分词器在法语文本上的分词率(fertility rates)显著降低,从而提高了计算效率和模型捕捉语言细微差别的能力。该架构包含 24 层,隐藏层维度为 2048,拥有 16 个注意力头,采用稠密结构,未使用专家混合(MoE)技术。

CroissantLLM Base 专为在消费级硬件上实现高性能而设计,适用于在个人电脑和移动系统等本地设备上部署。其训练历史高度透明,研究人员发布了预训练数据的详尽细节,并在整个训练过程中提供了各阶段检查点(checkpoints)的访问权限。该模型可作为各种下游任务的基础,特别是在以法语为中心的环境下的翻译和内容生成任务中,其专门的词汇表和均衡的训练使其相较于主要基于英语数据集训练的模型具有明显优势。

关于 CroissantLLM

CroissantLLM 是由法国研究机构开发的法英双语语言模型。该模型在精心挑选的法英混合数据集上进行训练,在提供语言理解能力的同时,也致力于传承法国的语言文化遗产。该模型专为在消费级硬件上实现低资源推理而设计。


其他 CroissantLLM 模型
  • 没有相关模型

评估基准

没有可用的 CroissantLLM Base 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

82 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
1k
2k

所需显存:

推荐 GPU

CroissantLLM Base:规格和 GPU 显存要求