趋近智
参数
40B
上下文长度
2.048K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
5 Jun 2023
训练数据截止日期
Feb 2023
注意力
注意力结构
Multi-Query Attention
注意力头
64
键值头
1
注意力头维度
64
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
Layer Normalization
激活函数
-
维度
隐藏维度大小
8,192
层数
60
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
65,024
Falcon-40B 是由技术创新研究院 (TII) 开发的具有 400 亿参数的因果解码器架构 (causal decoder-only) 语言模型。该基础模型在 1 万亿个 token 上进行了训练,数据主要源自 RefinedWeb 数据集(这是一个经过过滤和去重的高质量网络语料库),并辅以额外的精选数据。模型的核心目标是因果语言建模,即预测给定序列中的下一个 token。它旨在为各种自然语言处理应用提供强大的基础模型。
Falcon-40B 的架构设计基于 GPT-3 框架,并为了提高效率和性能进行了特定改进。关键的架构创新包括:采用旋转位置嵌入 (RoPE) 以优化序列位置处理,以及结合了多查询注意力 (MQA) 和 FlashAttention 的注意力机制。MQA 是一项关键优化,它允许在所有注意力头之间共享单个键 (key) 和值 (value) 对,从而在不影响预训练效率的情况下显著提高推理的可扩展性。解码器块采用并行注意力和多层感知器 (MLP) 结构,并辅以双层归一化方案,以稳定训练并提升模型性能。
Falcon-40B 针对高效推理进行了优化,这使其具有更快的处理速度和更高的部署可扩展性。作为一个原始的预训练模型,它旨在针对特定任务进行进一步微调。其能力涵盖各种自然语言生成和理解应用,包括内容创作、机器翻译、情感分析和语言辅导。该模型支持多种语言,在英语、德语、西班牙语和法语方面表现出极高的熟练度,同时在意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语方面具备一定的基础能力。
TII Falcon 模型系列由仅含解码器的因果语言模型(7B、40B)组成。其架构基于 GPT-3 改进,集成了旋转位置嵌入(RoPE)、旨在提升推理效率的多查询注意力(Multi-Query Attention)以及用于加速运算的 FlashAttention。该系列模型在 RefinedWeb 数据集上训练而成。
没有可用的 Falcon-40B 评估基准。
APX AI
在线