趋近智
参数
3B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
TII Falcon-LLM License 2.0
发布日期
17 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
24
键值头
6
注意力头维度
256
位置嵌入
ROPE
RoPE Theta
1,000,042
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
1,536
层数
28
FFN 中间层大小(稠密层)
9,216
多 Token 预测头数
-
分词器
词汇量大小
131,072
Falcon3-3B 模型是由技术创新研究所 (TII) 开发的 Falcon 3 系列开放基础模型的一部分。该模型旨在平衡性能与效率,使其能够部署在包括小型设备在内的各种计算基础设施上。它的开发旨在支持科学、数学和代码生成相关能力的进步。Falcon 3 系列既包括用于通用生成任务的基座模型,也包括用于对话应用的指令模型,强调了先进人工智能系统的普及性。
在架构上,Falcon3-3B 采用了基于 Transformer 的仅解码器(causal decoder-only)因果架构设计。它包含 22 个解码器块,构成了其处理深度。在注意力机制方面,该模型利用了分组查询注意力 (GQA),配置有 12 个查询头和 4 个键值头,以及 256 的更宽头维度。这种配置支持高效的推理操作。该模型集成了 SwiGLU 作为激活函数,并使用 RMSNorm 进行归一化,此外还使用了具有高基数值的旋转位置嵌入 (RoPE) 以处理扩展上下文。它还利用 Flash Attention 2 来优化运行时的显存占用和计算速度。
Falcon3-3B 模型(尤其是其指令变体)支持高达 32,768 个 token 的上下文长度,而基座版本支持 8,192 个 token。它被设计用于执行推理、语言理解、指令遵循和数学解题等任务。该模型经过训练可支持四种语言:英语、法语、西班牙语和葡萄牙语。其设计考量还包括提供量化版本(如 int4、int8 和 1.58 Bitnet),这进一步增强了其效率及对资源受限环境的适用性。
TII Falcon 3 模型系列由开源、仅解码器(decoder-only)语言模型(参数规模为 1B-10B)组成,专为高效能而设计。其关键创新包括扩展的 32K token 上下文窗口、分组查询注意力(GQA)机制,以及针对科学和代码领域的专业版本。部分变体还集成了基于 Mamba 的架构。
没有可用的 Falcon3-3B 评估基准。
APX AI
在线