趋近智
参数
7B
上下文长度
32K
模态
Text
架构
Dense
许可证
TII Falcon-LLM License 2.0
发布日期
17 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
256
位置嵌入
ROPE
RoPE Theta
1,000,042
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
36
FFN 中间层大小(稠密层)
23,040
多 Token 预测头数
-
分词器
词汇量大小
131,072
Falcon 3-7B 是由技术创新研究所 (TII) 开发的一款先进的指令微调语言模型。该模型变体是 Falcon 3 系列的成员,专注于增强在科学领域、数学和代码生成方面的能力。它专为高效性和可扩展性而设计,支持在包括计算资源有限的环境在内的各种基础设施上部署。该模型支持多语言应用,训练涵盖了英语、法语、西班牙语和/或葡萄牙语,并旨在处理长上下文任务。
Falcon 3-7B 的架构基础是基于 Transformer 的仅解码器(causal decoder-only)设计,包含 28 个解码器块。它采用分组查询注意力(GQA)以优化推理速度和内存效率,配置有 12 个查询头和 4 个键值头,头部维度为 256。该模型集成了旋转位置嵌入(RoPE),其 base 值高达 1000042,以实现对高达 32,000 个 token 的扩展上下文的有效理解和处理。激活函数采用 SwiGLU 实现,并辅以 RMSNorm 进行归一化,从而提高了训练的稳定性和效率。此外,该模型还针对 FlashAttention-3 进行了优化。
Falcon 3-7B 在包含 14 万亿(14T)token 的多样化网页、代码、科学及高质量多语言数据集上进行了预训练。在预训练之后,它又在 120 万个样本上进行了进一步微调,这些样本专门针对 STEM 内容、对话交互、代码和安全合规性进行了定制。这种全面的训练方案使该模型能够在各种应用中表现稳健,包括科学和数学问题的解决、多语言内容生成以及长篇文本信息的处理。其设计支持指令遵循任务,使其适用于教育工具、研究辅助以及技术文档的生成。
TII Falcon 3 模型系列由开源、仅解码器(decoder-only)语言模型(参数规模为 1B-10B)组成,专为高效能而设计。其关键创新包括扩展的 32K token 上下文窗口、分组查询注意力(GQA)机制,以及针对科学和代码领域的专业版本。部分变体还集成了基于 Mamba 的架构。
没有可用的 Falcon3-7B 评估基准。
APX AI
在线