ApX 标志ApX 标志

趋近智

Falcon3-3B

参数

3B

上下文长度

32.768K

模态

Text

架构

Dense

许可证

TII Falcon-LLM License 2.0

发布日期

17 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

24

键值头

6

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

1,000,042

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

1,536

层数

28

FFN 中间层大小(稠密层)

9,216

多 Token 预测头数

-

分词器

词汇量大小

131,072

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 1.5k · Context: 32.8k · Vocab: 131.1kx 28 layersRMSNormPre-AttentionGrouped-Query Attention24Q / 6KV headsHead dim: 256+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 9.2k+Final RMSNormOutput Logits

Falcon3-3B

Falcon3-3B 模型是由技术创新研究所 (TII) 开发的 Falcon 3 系列开放基础模型的一部分。该模型旨在平衡性能与效率,使其能够部署在包括小型设备在内的各种计算基础设施上。它的开发旨在支持科学、数学和代码生成相关能力的进步。Falcon 3 系列既包括用于通用生成任务的基座模型,也包括用于对话应用的指令模型,强调了先进人工智能系统的普及性。

在架构上,Falcon3-3B 采用了基于 Transformer 的仅解码器(causal decoder-only)因果架构设计。它包含 22 个解码器块,构成了其处理深度。在注意力机制方面,该模型利用了分组查询注意力 (GQA),配置有 12 个查询头和 4 个键值头,以及 256 的更宽头维度。这种配置支持高效的推理操作。该模型集成了 SwiGLU 作为激活函数,并使用 RMSNorm 进行归一化,此外还使用了具有高基数值的旋转位置嵌入 (RoPE) 以处理扩展上下文。它还利用 Flash Attention 2 来优化运行时的显存占用和计算速度。

Falcon3-3B 模型(尤其是其指令变体)支持高达 32,768 个 token 的上下文长度,而基座版本支持 8,192 个 token。它被设计用于执行推理、语言理解、指令遵循和数学解题等任务。该模型经过训练可支持四种语言:英语、法语、西班牙语和葡萄牙语。其设计考量还包括提供量化版本(如 int4、int8 和 1.58 Bitnet),这进一步增强了其效率及对资源受限环境的适用性。

关于 Falcon 3

TII Falcon 3 模型系列由开源、仅解码器(decoder-only)语言模型(参数规模为 1B-10B)组成,专为高效能而设计。其关键创新包括扩展的 32K token 上下文窗口、分组查询注意力(GQA)机制,以及针对科学和代码领域的专业版本。部分变体还集成了基于 Mamba 的架构。


其他 Falcon 3 模型

评估基准

没有可用的 Falcon3-3B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

71 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU

Falcon3-3B:规格和 GPU 显存要求