ApX 标志ApX 标志

趋近智

Falcon-180B

参数

180B

上下文长度

2.048K

模态

Text

架构

Dense

许可证

Falcon-180B TII License and Acceptable Use Policy

发布日期

23 Sept 2023

训练数据截止日期

Dec 2022

技术规格

注意力结构

Multi-Query Attention

隐藏维度大小

12288

层数

60

注意力头

96

键值头

1

激活函数

GELU

归一化

Layer Normalization

位置嵌入

ROPE

Falcon-180B

Falcon-180B 模型由技术创新研究院(TII)开发,是一款旨在处理高级自然语言处理任务的大规模因果解码器架构(causal decoder-only)语言模型。它是 Falcon 40B 模型的演进版本,在参数规模上进行了显著扩展。该模型旨在作为各种需要复杂语言理解和生成能力应用的基础组件,包括文本生成、对话式人工智能和摘要提取。该模型经过专门设计,便于针对特定用例进行进一步微调,此外还提供了一个专门针对对话优化的变体,该变体已在指令数据集上完成了微调。

在架构方面,Falcon-180B 实现了优化的 Transformer 设计,在借鉴 GPT-3 框架的同时融入了关键创新。一个显著特征是采用了多查询注意力(Multi-Query Attention, MQA)机制,通过让所有注意力头共享单一的键(Key)和值(Value)投影,增强了可扩展性并优化了推理性能。该模型还利用旋转位置嵌入(RoPE)来编码序列中的位置信息,并引入 FlashAttention 以实现高效的注意力计算。其解码器块采用了并行注意力/多层感知机(MLP)结构,并带有两个层归一化(Layer Norm),这提升了其处理效率。该模型在包含 3.5 万亿 token 的庞大数据集上进行训练,主要源自 TII 的 RefinedWeb 数据集(约占 85%),并辅以包括技术论文、对话和代码在内的精选语料库。这次广泛的预训练动用了多达 4,096 块 A100 GPU,累计耗时约 7,000,000 GPU 小时,并利用了名为 Gigatron 的自定义分布式训练代码库,采用了 3D 并行策略结合 ZeRO 优化技术。

Falcon-180B 旨在为一系列基于语言的任务提供稳健的性能。其设计支持需要深度理解和逻辑推理的任务,如复杂的调研、代码生成和基于知识的查询。在多样化语料库上的广泛训练使模型能够有效地存储和检索信息,使其适用于问答系统和复杂主题的摘要生成。该模型固有的多功能性使其能够适应并在广泛的领域中表现出色,从而支持其作为多种应用强大工具的实用性。

关于 Falcon

TII Falcon 模型系列由仅含解码器的因果语言模型(7B、40B)组成。其架构基于 GPT-3 改进,集成了旋转位置嵌入(RoPE)、旨在提升推理效率的多查询注意力(Multi-Query Attention)以及用于加速运算的 FlashAttention。该系列模型在 RefinedWeb 数据集上训练而成。


其他 Falcon 模型

评估基准

没有可用的 Falcon-180B 评估基准。

排名

排名

-

编程排名

-

模型透明度

总分

B+

72 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
1k
2k

所需显存:

推荐 GPU