趋近智
参数
7.3B
上下文长度
8.192K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
27 Sept 2023
训练数据截止日期
Aug 2021
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
Yes
滑动窗口大小
4,096
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
14,336
多 Token 预测头数
-
分词器
词汇量大小
32,000
Mistral-7B-v0.1 是由 Mistral AI 开发的拥有 73 亿参数的大语言模型,专为在自然语言处理任务中实现卓越性能和计算效率而设计。其设计优先考虑高效推理,使其适用于各种应用场景的实际部署。该模型基于仅解码器(decoder-only)的 Transformer 架构,并集成了多项关键创新以优化其运行效率。
Mistral 7B 是一款拥有 73 亿参数的模型,采用了仅解码器(decoder-only)的 Transformer 架构。它具备滑动窗口注意力(Sliding Window Attention)和分组查询注意力(Grouped Query Attention),可实现高效的长序列处理。其滚动缓冲区缓存(Rolling Buffer Cache)优化了内存使用,这些特性共同构成了其高效语言处理的设计方案。
没有可用的 Mistral-7B-v0.1 评估基准。
APX AI
在线