ApX 标志ApX 标志

趋近智

Mistral-7B-v0.1

参数

7.3B

上下文长度

8.192K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

27 Sept 2023

训练数据截止日期

Aug 2021

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

14,336

多 Token 预测头数

-

分词器

词汇量大小

32,000

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 8.2k · Vocab: 32kx 32 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV heads · SW: 4.1kHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 14.3k+Final RMSNormOutput Logits

Mistral-7B-v0.1

Mistral-7B-v0.1 是由 Mistral AI 开发的拥有 73 亿参数的大语言模型,专为在自然语言处理任务中实现卓越性能和计算效率而设计。其设计优先考虑高效推理,使其适用于各种应用场景的实际部署。该模型基于仅解码器(decoder-only)的 Transformer 架构,并集成了多项关键创新以优化其运行效率。

关于 Mistral 7B

Mistral 7B 是一款拥有 73 亿参数的模型,采用了仅解码器(decoder-only)的 Transformer 架构。它具备滑动窗口注意力(Sliding Window Attention)和分组查询注意力(Grouped Query Attention),可实现高效的长序列处理。其滚动缓冲区缓存(Rolling Buffer Cache)优化了内存使用,这些特性共同构成了其高效语言处理的设计方案。


其他 Mistral 7B 模型

评估基准

没有可用的 Mistral-7B-v0.1 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

66 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU