ApX 标志ApX 标志

趋近智

Falcon-7B

参数

7B

上下文长度

2.048K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

5 Jun 2023

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Query Attention

注意力头

71

键值头

1

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

No

滑动窗口大小

-

归一化

Layer Normalization

激活函数

-

维度

隐藏维度大小

4,544

层数

32

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

65,024

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.5k · Context: 2k · Vocab: 65kx 32 layersLayerNormPre-AttentionMulti-Query Attention71Q / 1KV headsHead dim: 64+LayerNormPre-FFNFeed-Forward NetworkActivation+Final LayerNormOutput Logits

Falcon-7B

Falcon-7B 是由技术创新研究院 (TII) 开发的一款拥有 70 亿参数的仅包含解码器的因果语言模型。其主要目的是为广泛的自然语言处理任务提供高性能、高效的基础,涵盖了语言理解和生成能力。该模型的设计强调在研究和商业应用中的实用性,为开发人员和从业者提供了一个强大的开源选项。

在架构方面,Falcon-7B 基于 Transformer 框架构建,并结合了特定的修改以优化性能和效率。一项核心创新是采用了多查询注意力 (MQA) 机制,该机制通过允许所有注意力头共享单个键 (Key) 和值 (Value) 投影,提高了推理速度并降低了内存开销。这与为每个头使用独立投影的传统多头注意力机制形成了鲜明对比。此外,该模型集成了 FlashAttention 技术,通过内存高效的注意力机制显著加速了训练和推理计算。位置编码采用旋转位置嵌入 (RoPE) 处理,这有助于模型有效地处理序列信息。其解码器块采用了注意力和多层感知器 (MLP) 组件的并行排列结构,并由单个层归一化 (Layer Normalization) 统一。

Falcon-7B 在包含 1.5 万亿 token 的庞大数据集上进行了训练,该数据集主要源自 RefinedWeb 语料库,并辅以精选数据集,使其在生成连贯且上下文相关的文本方面表现出色。其架构优化专门为实现高效推理而定制,使其非常适合部署在对快速响应时间有严格要求的场景中。常见用例包括文本生成、聊天机器人、文本摘要和问答系统。该模型根据 Apache 2.0 许可证发布,允许广泛的商业用途,并促进其集成到各种 AI 驱动的解决方案和持续的研究工作中。

关于 Falcon

TII Falcon 模型系列由仅含解码器的因果语言模型(7B、40B)组成。其架构基于 GPT-3 改进,集成了旋转位置嵌入(RoPE)、旨在提升推理效率的多查询注意力(Multi-Query Attention)以及用于加速运算的 FlashAttention。该系列模型在 RefinedWeb 数据集上训练而成。


其他 Falcon 模型

评估基准

没有可用的 Falcon-7B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B+

74 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
1k
2k

所需显存:

推荐 GPU