ApX 标志ApX 标志

趋近智

Falcon3-7B

参数

7B

上下文长度

32K

模态

Text

架构

Dense

许可证

TII Falcon-LLM License 2.0

发布日期

17 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

1,000,042

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

36

FFN 中间层大小(稠密层)

23,040

多 Token 预测头数

-

分词器

词汇量大小

131,072

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 32k · Vocab: 131.1kx 36 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 256+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 23k+Final RMSNormOutput Logits

Falcon3-7B

Falcon 3-7B 是由技术创新研究所 (TII) 开发的一款先进的指令微调语言模型。该模型变体是 Falcon 3 系列的成员,专注于增强在科学领域、数学和代码生成方面的能力。它专为高效性和可扩展性而设计,支持在包括计算资源有限的环境在内的各种基础设施上部署。该模型支持多语言应用,训练涵盖了英语、法语、西班牙语和/或葡萄牙语,并旨在处理长上下文任务。

Falcon 3-7B 的架构基础是基于 Transformer 的仅解码器(causal decoder-only)设计,包含 28 个解码器块。它采用分组查询注意力(GQA)以优化推理速度和内存效率,配置有 12 个查询头和 4 个键值头,头部维度为 256。该模型集成了旋转位置嵌入(RoPE),其 base 值高达 1000042,以实现对高达 32,000 个 token 的扩展上下文的有效理解和处理。激活函数采用 SwiGLU 实现,并辅以 RMSNorm 进行归一化,从而提高了训练的稳定性和效率。此外,该模型还针对 FlashAttention-3 进行了优化。

Falcon 3-7B 在包含 14 万亿(14T)token 的多样化网页、代码、科学及高质量多语言数据集上进行了预训练。在预训练之后,它又在 120 万个样本上进行了进一步微调,这些样本专门针对 STEM 内容、对话交互、代码和安全合规性进行了定制。这种全面的训练方案使该模型能够在各种应用中表现稳健,包括科学和数学问题的解决、多语言内容生成以及长篇文本信息的处理。其设计支持指令遵循任务,使其适用于教育工具、研究辅助以及技术文档的生成。

关于 Falcon 3

TII Falcon 3 模型系列由开源、仅解码器(decoder-only)语言模型(参数规模为 1B-10B)组成,专为高效能而设计。其关键创新包括扩展的 32K token 上下文窗口、分组查询注意力(GQA)机制,以及针对科学和代码领域的专业版本。部分变体还集成了基于 Mamba 的架构。


其他 Falcon 3 模型

评估基准

没有可用的 Falcon3-7B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
31k

所需显存:

推荐 GPU