趋近智
参数
10B
上下文长度
33K
模态
Text
架构
Dense
许可证
TII Falcon-LLM License 2.0
发布日期
17 Dec 2024
训练数据截止日期
Nov 2024
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
1x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
32768 个令牌
消费级
2x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
没有可用的 Falcon3-10B 评估基准。
排名
-
编程排名
-
Falcon3-10B 是由技术创新研究院 (TII) 开发的 Falcon3 系列仅解码器 (decoder-only) 大语言模型成员。该模型变体旨在提升科学推理、数学和代码生成的能力。它提供基座版和指令微调版,能够支持从通用文本生成到对话式人工智能的多种应用。由于其设计考量及优化的量化版本,该模型可以在包括笔记本电脑等资源受限设备在内的各种基础设施上高效运行。
在架构方面,Falcon3-10B 是一款基于 Transformer 的因果仅解码器模型,拥有 40 个解码器块,构成了其深层结构。其注意力机制的一个关键创新是实现了分组查询注意力 (GQA),包含 12 个查询头和 4 个键值头,这有助于加快推理速度。该模型采用了 256 的更宽注意力头维度,并引入了旋转位置嵌入 (RoPE) 以支持扩展的上下文理解。在非线性激活函数方面,它采用了 SwiGLU,并依赖 RMSNorm 进行归一化。这些架构选择旨在平衡性能与计算效率。
Falcon3-10B 模型是通过对 Falcon3-7B-Base 模型进行深度扩展 (depth up-scaling),随后在 2 万亿标记 (tokens) 的高质量数据上进行持续预训练构建而成。整个 Falcon3 系列的训练语料库包含 14 万亿标记,涵盖了网页内容、代码、科学、技术、工程和数学 (STEM) 数据,以及高质量的多语言数据集。这种广泛的训练使模型能够处理高达 32,000 个标记的上下文长度,支持对长输入进行详细分析和连贯的多轮交互。它支持包括英语、法语、西班牙语和葡萄牙语在内的多种语言推理。
注意力
注意力结构
Grouped-Query Attention
注意力头
40
键值头
10
注意力头维度
256
位置嵌入
ROPE
RoPE Theta
1,000,042
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
5,120
层数
40
FFN 中间层大小(稠密层)
23,040
多 Token 预测头数
-
分词器
词汇量大小
131,072
TII Falcon 3 模型系列由开源、仅解码器(decoder-only)语言模型(参数规模为 1B-10B)组成,专为高效能而设计。其关键创新包括扩展的 32K token 上下文窗口、分组查询注意力(GQA)机制,以及针对科学和代码领域的专业版本。部分变体还集成了基于 Mamba 的架构。
APX AI
在线