趋近智
注意力
注意力结构
Multi-Query Attention
注意力头
71
键值头
1
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
No
滑动窗口大小
-
归一化
Layer Normalization
激活函数
-
维度
隐藏维度大小
4,544
层数
32
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
65,024
Falcon-7B 是由技术创新研究院 (TII) 开发的一款拥有 70 亿参数的仅包含解码器的因果语言模型。其主要目的是为广泛的自然语言处理任务提供高性能、高效的基础,涵盖了语言理解和生成能力。该模型的设计强调在研究和商业应用中的实用性,为开发人员和从业者提供了一个强大的开源选项。
在架构方面,Falcon-7B 基于 Transformer 框架构建,并结合了特定的修改以优化性能和效率。一项核心创新是采用了多查询注意力 (MQA) 机制,该机制通过允许所有注意力头共享单个键 (Key) 和值 (Value) 投影,提高了推理速度并降低了内存开销。这与为每个头使用独立投影的传统多头注意力机制形成了鲜明对比。此外,该模型集成了 FlashAttention 技术,通过内存高效的注意力机制显著加速了训练和推理计算。位置编码采用旋转位置嵌入 (RoPE) 处理,这有助于模型有效地处理序列信息。其解码器块采用了注意力和多层感知器 (MLP) 组件的并行排列结构,并由单个层归一化 (Layer Normalization) 统一。
Falcon-7B 在包含 1.5 万亿 token 的庞大数据集上进行了训练,该数据集主要源自 RefinedWeb 语料库,并辅以精选数据集,使其在生成连贯且上下文相关的文本方面表现出色。其架构优化专门为实现高效推理而定制,使其非常适合部署在对快速响应时间有严格要求的场景中。常见用例包括文本生成、聊天机器人、文本摘要和问答系统。该模型根据 Apache 2.0 许可证发布,允许广泛的商业用途,并促进其集成到各种 AI 驱动的解决方案和持续的研究工作中。
TII Falcon 模型系列由仅含解码器的因果语言模型(7B、40B)组成。其架构基于 GPT-3 改进,集成了旋转位置嵌入(RoPE)、旨在提升推理效率的多查询注意力(Multi-Query Attention)以及用于加速运算的 FlashAttention。该系列模型在 RefinedWeb 数据集上训练而成。
没有可用的 Falcon-7B 评估基准。
APX AI
在线