ApX 标志ApX 标志

趋近智

Falcon3-10B

参数

10B

上下文长度

33K

模态

Text

架构

Dense

许可证

TII Falcon-LLM License 2.0

发布日期

17 Dec 2024

训练数据截止日期

Nov 2024

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

22.94 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

32768 个令牌

36.59 GB VRAM

消费级

2x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 5.1k · Context: 33K · Vocab: 131.1kx 40 layersRMSNormPre-AttentionGrouped-Query Attention40Q / 10KV headsHead dim: 256+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 23k+Final RMSNormOutput Logits

评估基准

没有可用的 Falcon3-10B 评估基准。

排名

排名

-

编程排名

-

关于 Falcon3-10B

Falcon3-10B 是由技术创新研究院 (TII) 开发的 Falcon3 系列仅解码器 (decoder-only) 大语言模型成员。该模型变体旨在提升科学推理、数学和代码生成的能力。它提供基座版和指令微调版,能够支持从通用文本生成到对话式人工智能的多种应用。由于其设计考量及优化的量化版本,该模型可以在包括笔记本电脑等资源受限设备在内的各种基础设施上高效运行。

在架构方面,Falcon3-10B 是一款基于 Transformer 的因果仅解码器模型,拥有 40 个解码器块,构成了其深层结构。其注意力机制的一个关键创新是实现了分组查询注意力 (GQA),包含 12 个查询头和 4 个键值头,这有助于加快推理速度。该模型采用了 256 的更宽注意力头维度,并引入了旋转位置嵌入 (RoPE) 以支持扩展的上下文理解。在非线性激活函数方面,它采用了 SwiGLU,并依赖 RMSNorm 进行归一化。这些架构选择旨在平衡性能与计算效率。

Falcon3-10B 模型是通过对 Falcon3-7B-Base 模型进行深度扩展 (depth up-scaling),随后在 2 万亿标记 (tokens) 的高质量数据上进行持续预训练构建而成。整个 Falcon3 系列的训练语料库包含 14 万亿标记,涵盖了网页内容、代码、科学、技术、工程和数学 (STEM) 数据,以及高质量的多语言数据集。这种广泛的训练使模型能够处理高达 32,000 个标记的上下文长度,支持对长输入进行详细分析和连贯的多轮交互。它支持包括英语、法语、西班牙语和葡萄牙语在内的多种语言推理。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

40

键值头

10

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

1,000,042

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

5,120

层数

40

FFN 中间层大小(稠密层)

23,040

多 Token 预测头数

-

分词器

词汇量大小

131,072

模型完整性

总分

B

67 / 100

关于 Falcon 3

TII Falcon 3 模型系列由开源、仅解码器(decoder-only)语言模型(参数规模为 1B-10B)组成,专为高效能而设计。其关键创新包括扩展的 32K token 上下文窗口、分组查询注意力(GQA)机制,以及针对科学和代码领域的专业版本。部分变体还集成了基于 Mamba 的架构。


其他 Falcon 3 模型
Falcon3-10B:规格和 GPU 显存要求