趋近智
参数
1B
上下文长度
8.192K
模态
Text
架构
Dense
许可证
TII Falcon-LLM License 2.0
发布日期
17 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
16
键值头
4
注意力头维度
256
位置嵌入
ROPE
RoPE Theta
1,000,042
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
768
层数
18
FFN 中间层大小(稠密层)
8,192
多 Token 预测头数
-
分词器
词汇量大小
131,072
Falcon3-1B 模型是 Falcon 3 系列仅解码器大语言模型的成员之一,由技术创新研究院 (TII) 开发。该系列模型旨在增强在科学、数学和编码领域的能力,同时高度关注训练效率。Falcon3-1B 变体专为在轻量级计算基础设施(包括笔记本电脑等设备)上高效运行而设计,从而扩大了先进 AI 能力的可普及性。它支持包括英语、法语、西班牙语和葡萄牙语在内的多语言应用。
在架构上,Falcon3-1B 基于 Transformer 的因果仅解码器设计,包含 18 个解码器块。该模型采用了分组查询注意力机制 (GQA),配置有 8 个查询头和 4 个键值 (KV) 头,通过最大限度地减少键值 (KV) 缓存的内存消耗,有助于实现高效推理。在激活函数方面,模型采用 SwiGLU;在归一化方面,则集成了 RMSNorm。位置嵌入通过旋转位置嵌入 (RoPE) 进行处理,有助于实现有效的长上下文理解。Falcon3-1B 的分词器支持包含 131,000 个标记的大型词表,这有助于数据压缩和下游性能的提升。此外,该架构还集成了 Flash Attention 2 以优化计算吞吐量。
Falcon3-1B 旨在处理多种自然语言处理任务,包括但不限于推理、语言理解、指令遵循、代码生成和数学问题解决。其设计使其能够部署在生成式 AI 应用和对话式 AI 系统中。该模型的高效率及其优化变体(如量化版本)使其能够在资源受限的环境中使用,为各种现实应用提供了实用的解决方案。
TII Falcon 3 模型系列由开源、仅解码器(decoder-only)语言模型(参数规模为 1B-10B)组成,专为高效能而设计。其关键创新包括扩展的 32K token 上下文窗口、分组查询注意力(GQA)机制,以及针对科学和代码领域的专业版本。部分变体还集成了基于 Mamba 的架构。
没有可用的 Falcon3-1B 评估基准。
APX AI
在线