ApX 标志ApX 标志

趋近智

Falcon2-11B

参数

11B

上下文长度

8K

模态

Text

架构

Dense

许可证

TII Falcon License 2.0

发布日期

20 Jul 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Query Attention

注意力头

44

键值头

1

注意力头维度

128

位置嵌入

ROPE

RoPE Theta

500,042

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

GELU

维度

隐藏维度大小

5,632

层数

40

FFN 中间层大小(稠密层)

16,384

多 Token 预测头数

-

分词器

词汇量大小

65,024

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 5.6k · Context: 8K · Vocab: 65kx 40 layersLayerNormPre-AttentionMulti-Query Attention44Q / 1KV headsHead dim: 128+LayerNormPre-FFNFeed-Forward NetworkGELUIntermediate: 16.4k+Final LayerNormOutput Logits

Falcon2-11B

Falcon 2 11B 是由技术创新研究所 (TII) 开发的拥有 110 亿参数的大语言模型。该模型采用仅因果解码器(causal decoder-only)架构,旨在作为各种自然语言处理应用的基础组件。其开发重点在于提升可访问性和推理效率,从而推动更广泛的采用并促进专用下游应用的开发。该模型支持多语言理解与生成,能够适应多样的语言环境。

在架构上,Falcon 2 11B 基于 Transformer 框架构建,具体采用了以“预测下一个 Token”为目标的仅因果解码器配置。该模型融合了多项源自 GPT-3 架构的关键创新,包括用于增强序列长度处理能力的旋转位置嵌入(RoPE)以及用于优化注意力机制的 FlashAttention-2。一个显著特点是其实现了具有 8 个键值头的分组查询注意力(GQA)机制,旨在平衡注意力计算的效率与性能。其解码器块采用了并行注意力/MLP 结构。训练过程分为四个阶段,逐步将有效上下文窗口扩展至 8192 个 Token。该模型在超过 5 万亿 Token 的海量数据集上进行训练,这些数据主要来自 RefinedWeb(一个经过高质量过滤和去重的网络语料库),并辅以包含代码和对话内容的精选数据。

Falcon 2 11B 具备多语言能力,训练数据涵盖英语、德语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、捷克语、罗马尼亚语和瑞典语。这种广泛的语言覆盖使其能够在多种语言环境中高效运行。该模型可作为文本生成、机器翻译和摘要提取等任务的基座,强调了其作为通用基础模型在针对特定领域需求进行微调时的核心作用。其优化后的设计支持更快的处理速度,有助于在各种应用场景中实现更高效的部署。

关于 Falcon 2

TII 的 Falcon 2 模型系列包含 11B 语言模型及其对应的视觉语言模型 (VLM)。这些开源模型拥有 110 亿个参数,在超过 5 万亿个 token 上训练而成,并提供多语言支持。VLM 变体集成了视觉到语言的能力,能够处理视觉输入并生成文本输出。


其他 Falcon 2 模型
  • 没有相关模型

评估基准

没有可用的 Falcon2-11B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

73 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU

Falcon2-11B:规格和 GPU 显存要求