ApX 标志ApX 标志

趋近智

Falcon-40B

参数

40B

上下文长度

2.048K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

5 Jun 2023

训练数据截止日期

Feb 2023

技术规格

注意力

注意力结构

Multi-Query Attention

注意力头

64

键值头

1

注意力头维度

64

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

Layer Normalization

激活函数

-

维度

隐藏维度大小

8,192

层数

60

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

65,024

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 8.2k · Context: 2k · Vocab: 65kx 60 layersLayerNormPre-AttentionMulti-Query Attention64Q / 1KV headsHead dim: 64+LayerNormPre-FFNFeed-Forward NetworkActivation+Final LayerNormOutput Logits

Falcon-40B

Falcon-40B 是由技术创新研究院 (TII) 开发的具有 400 亿参数的因果解码器架构 (causal decoder-only) 语言模型。该基础模型在 1 万亿个 token 上进行了训练,数据主要源自 RefinedWeb 数据集(这是一个经过过滤和去重的高质量网络语料库),并辅以额外的精选数据。模型的核心目标是因果语言建模,即预测给定序列中的下一个 token。它旨在为各种自然语言处理应用提供强大的基础模型。

Falcon-40B 的架构设计基于 GPT-3 框架,并为了提高效率和性能进行了特定改进。关键的架构创新包括:采用旋转位置嵌入 (RoPE) 以优化序列位置处理,以及结合了多查询注意力 (MQA) 和 FlashAttention 的注意力机制。MQA 是一项关键优化,它允许在所有注意力头之间共享单个键 (key) 和值 (value) 对,从而在不影响预训练效率的情况下显著提高推理的可扩展性。解码器块采用并行注意力和多层感知器 (MLP) 结构,并辅以双层归一化方案,以稳定训练并提升模型性能。

Falcon-40B 针对高效推理进行了优化,这使其具有更快的处理速度和更高的部署可扩展性。作为一个原始的预训练模型,它旨在针对特定任务进行进一步微调。其能力涵盖各种自然语言生成和理解应用,包括内容创作、机器翻译、情感分析和语言辅导。该模型支持多种语言,在英语、德语、西班牙语和法语方面表现出极高的熟练度,同时在意大利语、葡萄牙语、波兰语、荷兰语、罗马尼亚语、捷克语和瑞典语方面具备一定的基础能力。

关于 Falcon

TII Falcon 模型系列由仅含解码器的因果语言模型(7B、40B)组成。其架构基于 GPT-3 改进,集成了旋转位置嵌入(RoPE)、旨在提升推理效率的多查询注意力(Multi-Query Attention)以及用于加速运算的 FlashAttention。该系列模型在 RefinedWeb 数据集上训练而成。


其他 Falcon 模型

评估基准

没有可用的 Falcon-40B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

72 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
1k
2k

所需显存:

推荐 GPU

Falcon-40B:规格和 GPU 显存要求