趋近智
参数
3B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
TII Falcon-LLM License 2.0
发布日期
17 Dec 2024
训练数据截止日期
-
注意力
注意力结构
Multi-Query Attention
注意力头
48
键值头
1
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
-
滑动窗口注意力
-
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
1,536
层数
32
FFN 中间层大小(稠密层)
-
多 Token 预测头数
-
分词器
词汇量大小
-
Falcon-3B 是由技术创新研究院 (TII) 开发的 Falcon 3 系列仅解码器 (decoder-only) 大语言模型成员之一。该模型变体拥有 30 亿参数,专为在各种硬件上高效部署而设计,包括笔记本电脑和单 GPU 等资源受限的系统。其主要目标是在一系列自然语言处理任务中提供强大的性能,重点关注推理、语言理解、指令遵循、代码生成和数学能力。Falcon-3B 模型还支持多语言功能,特别是英语、法语、西班牙语和葡萄牙语。
Falcon-3B 的架构基础是基于 Transformer 的因果仅解码器设计。它结合了多项创新技术以增强效率和性能。值得注意的是,它采用了分组查询注意力 (GQA) 机制,通过在注意力头之间共享参数来优化推理速度并减少键值 (KV) 缓存的内存消耗。该模型采用 SwiGLU 作为激活函数,并使用 RMSNorm 进行归一化,有助于实现稳定且有效的学习。位置嵌入采用旋转位置嵌入 (RoPE) 处理,以支持扩展上下文的理解。此外,该模型利用 FlashAttention 2 加速注意力计算,并拥有 131,000 个标记 (token) 的超大词表量,从而提高了压缩效率和下游任务性能。
Falcon-3B 及其指令微调版本是通过对规模更大的 Falcon3-7B-Base 模型进行剪枝 (pruning) 和知识蒸馏 (knowledge distillation) 等技术开发而成的,从而获得了一个高效且高性能的紧凑型模型。基础版支持 8,000 个标记的上下文长度,而指令微调版将此能力扩展至 32,000 个标记,使其能够处理更长、更复杂的输入并生成响应。这种设计范式使 Falcon-3B 成为在需要考虑计算资源的运行环境中实现高级 AI 功能的理想选择。
TII Falcon 模型系列由仅含解码器的因果语言模型(7B、40B)组成。其架构基于 GPT-3 改进,集成了旋转位置嵌入(RoPE)、旨在提升推理效率的多查询注意力(Multi-Query Attention)以及用于加速运算的 FlashAttention。该系列模型在 RefinedWeb 数据集上训练而成。
没有可用的 Falcon-3B 评估基准。
APX AI
在线