ApX 标志ApX 标志

趋近智

Mistral-7B-Instruct-v0.1

参数

7.3B

上下文长度

8K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

27 Sept 2023

训练数据截止日期

-

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

4,096

归一化

RMS Normalization

激活函数

SwigLU

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

14,336

多 Token 预测头数

-

分词器

词汇量大小

32,000

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 8K · Vocab: 32kx 32 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV heads · SW: 4.1kHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwiGLUIntermediate: 14.3k+Final RMSNormOutput Logits

Mistral-7B-Instruct-v0.1

Mistral-7B-Instruct-v0.1 模型是由 Mistral AI 开发的 Mistral-7B-v0.1 生成式文本模型的指令微调变体。其主要目的是通过精确理解并响应指令性提示,从而支持对话式 AI 和助手任务。该模型专为效率而设计,为语言处理应用提供了一种紧凑且高性能的解决方案。

在架构方面,Mistral-7B-Instruct-v0.1 是一种仅解码器(decoder-only)的 Transformer 模型。它采用了多项先进技术以增强计算效率和上下文管理能力。其中包括用于加速推理的分组查询注意力(Grouped-Query Attention, GQA)以及滑动窗口注意力(Sliding-Window Attention, SWA),后者通过关注固定窗口内的先前隐藏状态,能够更有效地处理较长的输入序列。该模型使用旋转位置嵌入(Rotary Position Embedding, RoPE)进行位置编码,并采用 RMS 归一化(RMS Normalization)。其分词工作由 Byte-fallback BPE 分词器处理。

在功能方面,Mistral-7B-Instruct-v0.1 适用于各种文本处理场景。它擅长生成连贯的文本、回答问题以及执行通用的自然语言处理任务。具体应用包括对话式 AI 系统、教育工具、客户支持界面和知识检索助手。由于采用了优化架构,其设计还支持实时内容生成和高能效的 AI 部署。

关于 Mistral 7B

Mistral 7B 是一款拥有 73 亿参数的模型,采用了仅解码器(decoder-only)的 Transformer 架构。它具备滑动窗口注意力(Sliding Window Attention)和分组查询注意力(Grouped Query Attention),可实现高效的长序列处理。其滚动缓冲区缓存(Rolling Buffer Cache)优化了内存使用,这些特性共同构成了其高效语言处理的设计方案。


其他 Mistral 7B 模型

评估基准

没有可用的 Mistral-7B-Instruct-v0.1 评估基准。

排名

排名

-

编程排名

-

模型完整性

总分

B

64 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
4k
8k

所需显存:

推荐 GPU