趋近智
参数
11B
上下文长度
8K
模态
Text
架构
Dense
许可证
TII Falcon License 2.0
发布日期
20 Jul 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Query Attention
注意力头
44
键值头
1
注意力头维度
128
位置嵌入
ROPE
RoPE Theta
500,042
滑动窗口注意力
No
滑动窗口大小
-
归一化
Layer Normalization
激活函数
GELU
维度
隐藏维度大小
5,632
层数
40
FFN 中间层大小(稠密层)
16,384
多 Token 预测头数
-
分词器
词汇量大小
65,024
Falcon 2 11B 是由技术创新研究所 (TII) 开发的拥有 110 亿参数的大语言模型。该模型采用仅因果解码器(causal decoder-only)架构,旨在作为各种自然语言处理应用的基础组件。其开发重点在于提升可访问性和推理效率,从而推动更广泛的采用并促进专用下游应用的开发。该模型支持多语言理解与生成,能够适应多样的语言环境。
在架构上,Falcon 2 11B 基于 Transformer 框架构建,具体采用了以“预测下一个 Token”为目标的仅因果解码器配置。该模型融合了多项源自 GPT-3 架构的关键创新,包括用于增强序列长度处理能力的旋转位置嵌入(RoPE)以及用于优化注意力机制的 FlashAttention-2。一个显著特点是其实现了具有 8 个键值头的分组查询注意力(GQA)机制,旨在平衡注意力计算的效率与性能。其解码器块采用了并行注意力/MLP 结构。训练过程分为四个阶段,逐步将有效上下文窗口扩展至 8192 个 Token。该模型在超过 5 万亿 Token 的海量数据集上进行训练,这些数据主要来自 RefinedWeb(一个经过高质量过滤和去重的网络语料库),并辅以包含代码和对话内容的精选数据。
Falcon 2 11B 具备多语言能力,训练数据涵盖英语、德语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、捷克语、罗马尼亚语和瑞典语。这种广泛的语言覆盖使其能够在多种语言环境中高效运行。该模型可作为文本生成、机器翻译和摘要提取等任务的基座,强调了其作为通用基础模型在针对特定领域需求进行微调时的核心作用。其优化后的设计支持更快的处理速度,有助于在各种应用场景中实现更高效的部署。
TII 的 Falcon 2 模型系列包含 11B 语言模型及其对应的视觉语言模型 (VLM)。这些开源模型拥有 110 亿个参数,在超过 5 万亿个 token 上训练而成,并提供多语言支持。VLM 变体集成了视觉到语言的能力,能够处理视觉输入并生成文本输出。
没有可用的 Falcon2-11B 评估基准。
APX AI
在线