ApX 标志ApX 标志

趋近智

Falcon-3B

参数

3B

上下文长度

32.768K

模态

Text

架构

Dense

许可证

TII Falcon-LLM License 2.0

发布日期

17 Dec 2024

训练数据截止日期

-

技术规格

注意力

注意力结构

Multi-Query Attention

注意力头

48

键值头

1

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

-

滑动窗口注意力

-

滑动窗口大小

-

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

1,536

层数

32

FFN 中间层大小(稠密层)

-

多 Token 预测头数

-

分词器

词汇量大小

-

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 1.5k · Context: 32.8kx 32 layersRMSNormPre-AttentionMulti-Query Attention48Q / 1KV headsHead dim: 32+RMSNormPre-FFNFeed-Forward NetworkSwiGLU+Final RMSNormOutput Logits

Falcon-3B

Falcon-3B 是由技术创新研究院 (TII) 开发的 Falcon 3 系列仅解码器 (decoder-only) 大语言模型成员之一。该模型变体拥有 30 亿参数,专为在各种硬件上高效部署而设计,包括笔记本电脑和单 GPU 等资源受限的系统。其主要目标是在一系列自然语言处理任务中提供强大的性能,重点关注推理、语言理解、指令遵循、代码生成和数学能力。Falcon-3B 模型还支持多语言功能,特别是英语、法语、西班牙语和葡萄牙语。

Falcon-3B 的架构基础是基于 Transformer 的因果仅解码器设计。它结合了多项创新技术以增强效率和性能。值得注意的是,它采用了分组查询注意力 (GQA) 机制,通过在注意力头之间共享参数来优化推理速度并减少键值 (KV) 缓存的内存消耗。该模型采用 SwiGLU 作为激活函数,并使用 RMSNorm 进行归一化,有助于实现稳定且有效的学习。位置嵌入采用旋转位置嵌入 (RoPE) 处理,以支持扩展上下文的理解。此外,该模型利用 FlashAttention 2 加速注意力计算,并拥有 131,000 个标记 (token) 的超大词表量,从而提高了压缩效率和下游任务性能。

Falcon-3B 及其指令微调版本是通过对规模更大的 Falcon3-7B-Base 模型进行剪枝 (pruning) 和知识蒸馏 (knowledge distillation) 等技术开发而成的,从而获得了一个高效且高性能的紧凑型模型。基础版支持 8,000 个标记的上下文长度,而指令微调版将此能力扩展至 32,000 个标记,使其能够处理更长、更复杂的输入并生成响应。这种设计范式使 Falcon-3B 成为在需要考虑计算资源的运行环境中实现高级 AI 功能的理想选择。

关于 Falcon

TII Falcon 模型系列由仅含解码器的因果语言模型(7B、40B)组成。其架构基于 GPT-3 改进,集成了旋转位置嵌入(RoPE)、旨在提升推理效率的多查询注意力(Multi-Query Attention)以及用于加速运算的 FlashAttention。该系列模型在 RefinedWeb 数据集上训练而成。


其他 Falcon 模型

评估基准

没有可用的 Falcon-3B 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU