ApX 标志ApX 标志

趋近智

Falcon-1B

参数

1B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

TII Falcon-LLM License 2.0

发布日期

17 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Query Attention

注意力头

32

键值头

1

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

768

层数

24

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 768 · Context: 8.2kx 24 layersRMSNormPre-AttentionMulti-Query Attention32Q / 1KV headsHead dim: 24+RMSNormPre-FFNFeed-Forward NetworkSwiGLU+Final RMSNormOutput Logits

Falcon-1B

Falcon3-1B 模型由技术创新研究所 (TII) 开发,是 Falcon3 系列开源基础模型的成员,旨在以约 10 亿参数规模实现高效运行。该模型致力于提升科学推理、数学问题求解和代码理解能力。其变体如 Falcon3-1B-Base 提供了一个未经处理的预训练基础,适用于后续在多种自然语言处理应用中的微调;而 Falcon3-1B-Instruct 则针对对话界面和遵循显式指令进行了进一步优化。

在架构上,Falcon3-1B 采用了仅解码器(decoder-only)的 Causal Transformer 结构。它包含 18 个解码器层,这一设计选择有助于提升其效率。其架构中的一个关键创新是实现了分组查询注意力(GQA)机制,配置为 8 个查询头(query heads)和 4 个键值头(key-value heads)。这种 GQA 结构旨在提高推理速度并降低内存消耗。此外,该模型还采用了 256 的更宽头维度(head dimension),并利用旋转位置嵌入(RoPE)来增强对长上下文的理解能力。

整个网络使用的激活函数是 SwiGLU,并结合 RMSNorm 进行归一化,这有助于实现稳定的训练和性能。该模型的设计重点在于实现跨多种语言(包括英语、法语、西班牙语和葡萄牙语)的强大语言理解和生成能力。其优化的架构和相对紧凑的参数规模,使其成为边缘设备等计算资源受限环境下的理想部署选择,同时仍能针对一系列语言任务提供强劲的性能表现。

关于 Falcon

TII Falcon 模型系列由仅含解码器的因果语言模型(7B、40B)组成。其架构基于 GPT-3 改进,集成了旋转位置嵌入(RoPE)、旨在提升推理效率的多查询注意力(Multi-Query Attention)以及用于加速运算的 FlashAttention。该系列模型在 RefinedWeb 数据集上训练而成。


其他 Falcon 模型

评估基准

没有可用的 Falcon-1B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

67 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU

Falcon-1B:规格和 GPU 显存要求