Falcon3-7B

开源

开放权重

参数

上下文长度

32K

模态

Text

架构

Dense

许可证

TII Falcon-LLM License 2.0

发布日期

17 Dec 2024

训练数据截止日期

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

16.52 GB VRAM

消费级

1x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

32000 个令牌

26.11 GB VRAM

消费级

2x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

评估基准

没有可用的 Falcon3-7B 评估基准。

排名

编程排名

关于 Falcon3-7B

Falcon 3-7B 是由技术创新研究所 (TII) 开发的一款先进的指令微调语言模型。该模型变体是 Falcon 3 系列的成员，专注于增强在科学领域、数学和代码生成方面的能力。它专为高效性和可扩展性而设计，支持在包括计算资源有限的环境在内的各种基础设施上部署。该模型支持多语言应用，训练涵盖了英语、法语、西班牙语和/或葡萄牙语，并旨在处理长上下文任务。

Falcon 3-7B 的架构基础是基于 Transformer 的仅解码器（causal decoder-only）设计，包含 28 个解码器块。它采用分组查询注意力（GQA）以优化推理速度和内存效率，配置有 12 个查询头和 4 个键值头，头部维度为 256。该模型集成了旋转位置嵌入（RoPE），其 base 值高达 1000042，以实现对高达 32,000 个 token 的扩展上下文的有效理解和处理。激活函数采用 SwiGLU 实现，并辅以 RMSNorm 进行归一化，从而提高了训练的稳定性和效率。此外，该模型还针对 FlashAttention-3 进行了优化。

Falcon 3-7B 在包含 14 万亿（14T）token 的多样化网页、代码、科学及高质量多语言数据集上进行了预训练。在预训练之后，它又在 120 万个样本上进行了进一步微调，这些样本专门针对 STEM 内容、对话交互、代码和安全合规性进行了定制。这种全面的训练方案使该模型能够在各种应用中表现稳健，包括科学和数学问题的解决、多语言内容生成以及长篇文本信息的处理。其设计支持指令遵循任务，使其适用于教育工具、研究辅助以及技术文档的生成。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

键值头

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

1,000,042

滑动窗口注意力

滑动窗口大小

滑动窗口比例

线性注意力

线性注意力比例

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

FFN 中间层大小（稠密层）

23,040

多 Token 预测头数

分词器

词汇量大小

131,072

模型完整性

总分

B+

73 / 100

上游

22.0 / 30

模型

30.0 / 40

下游

20.5 / 30

资源

官方文档发布说明下载权重源代码

关于 Falcon 3

TII Falcon 3 模型系列由开源、仅解码器（decoder-only）语言模型（参数规模为 1B-10B）组成，专为高效能而设计。其关键创新包括扩展的 32K token 上下文窗口、分组查询注意力（GQA）机制，以及针对科学和代码领域的专业版本。部分变体还集成了基于 Mamba 的架构。