ApX 标志ApX 标志

趋近智

Falcon3-1B

参数

1B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

TII Falcon-LLM License 2.0

发布日期

17 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

16

键值头

4

注意力头维度

256

位置嵌入

ROPE

RoPE Theta

1,000,042

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

768

层数

18

FFN 中间层大小(稠密层)

8,192

多 Token 预测头数

-

分词器

词汇量大小

131,072

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 768 · Context: 8.2k · Vocab: 131.1kx 18 layersRMSNormPre-AttentionGrouped-Query Attention16Q / 4KV headsHead dim: 256+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 8.2k+Final RMSNormOutput Logits

Falcon3-1B

Falcon3-1B 模型是 Falcon 3 系列仅解码器大语言模型的成员之一,由技术创新研究院 (TII) 开发。该系列模型旨在增强在科学、数学和编码领域的能力,同时高度关注训练效率。Falcon3-1B 变体专为在轻量级计算基础设施(包括笔记本电脑等设备)上高效运行而设计,从而扩大了先进 AI 能力的可普及性。它支持包括英语、法语、西班牙语和葡萄牙语在内的多语言应用。

在架构上,Falcon3-1B 基于 Transformer 的因果仅解码器设计,包含 18 个解码器块。该模型采用了分组查询注意力机制 (GQA),配置有 8 个查询头和 4 个键值 (KV) 头,通过最大限度地减少键值 (KV) 缓存的内存消耗,有助于实现高效推理。在激活函数方面,模型采用 SwiGLU;在归一化方面,则集成了 RMSNorm。位置嵌入通过旋转位置嵌入 (RoPE) 进行处理,有助于实现有效的长上下文理解。Falcon3-1B 的分词器支持包含 131,000 个标记的大型词表,这有助于数据压缩和下游性能的提升。此外,该架构还集成了 Flash Attention 2 以优化计算吞吐量。

Falcon3-1B 旨在处理多种自然语言处理任务,包括但不限于推理、语言理解、指令遵循、代码生成和数学问题解决。其设计使其能够部署在生成式 AI 应用和对话式 AI 系统中。该模型的高效率及其优化变体(如量化版本)使其能够在资源受限的环境中使用,为各种现实应用提供了实用的解决方案。

关于 Falcon 3

TII Falcon 3 模型系列由开源、仅解码器(decoder-only)语言模型(参数规模为 1B-10B)组成,专为高效能而设计。其关键创新包括扩展的 32K token 上下文窗口、分组查询注意力(GQA)机制,以及针对科学和代码领域的专业版本。部分变体还集成了基于 Mamba 的架构。


其他 Falcon 3 模型

评估基准

没有可用的 Falcon3-1B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

68 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU