趋近智
参数
1B
上下文长度
8.192K
模态
Text
架构
Dense
许可证
TII Falcon-LLM License 2.0
发布日期
17 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Query Attention
注意力头
32
键值头
1
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
768
层数
24
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Falcon3-1B 模型由技术创新研究所 (TII) 开发,是 Falcon3 系列开源基础模型的成员,旨在以约 10 亿参数规模实现高效运行。该模型致力于提升科学推理、数学问题求解和代码理解能力。其变体如 Falcon3-1B-Base 提供了一个未经处理的预训练基础,适用于后续在多种自然语言处理应用中的微调;而 Falcon3-1B-Instruct 则针对对话界面和遵循显式指令进行了进一步优化。
在架构上,Falcon3-1B 采用了仅解码器(decoder-only)的 Causal Transformer 结构。它包含 18 个解码器层,这一设计选择有助于提升其效率。其架构中的一个关键创新是实现了分组查询注意力(GQA)机制,配置为 8 个查询头(query heads)和 4 个键值头(key-value heads)。这种 GQA 结构旨在提高推理速度并降低内存消耗。此外,该模型还采用了 256 的更宽头维度(head dimension),并利用旋转位置嵌入(RoPE)来增强对长上下文的理解能力。
整个网络使用的激活函数是 SwiGLU,并结合 RMSNorm 进行归一化,这有助于实现稳定的训练和性能。该模型的设计重点在于实现跨多种语言(包括英语、法语、西班牙语和葡萄牙语)的强大语言理解和生成能力。其优化的架构和相对紧凑的参数规模,使其成为边缘设备等计算资源受限环境下的理想部署选择,同时仍能针对一系列语言任务提供强劲的性能表现。
TII Falcon 模型系列由仅含解码器的因果语言模型(7B、40B)组成。其架构基于 GPT-3 改进,集成了旋转位置嵌入(RoPE)、旨在提升推理效率的多查询注意力(Multi-Query Attention)以及用于加速运算的 FlashAttention。该系列模型在 RefinedWeb 数据集上训练而成。
没有可用的 Falcon-1B 评估基准。
APX AI
在线