ApX 标志ApX 标志

趋近智

Mistral-7B-Instruct-v0.2

参数

7.3B

上下文长度

32.768K

模态

Text

架构

Dense

许可证

Apache 2.0

发布日期

15 Jan 2024

训练数据截止日期

Dec 2023

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

32

键值头

8

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

1,000,000

滑动窗口注意力

No

滑动窗口大小

-

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

4,096

层数

32

FFN 中间层大小(稠密层)

14,336

多 Token 预测头数

-

分词器

词汇量大小

32,000

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 4.1k · Context: 32.8k · Vocab: 32kx 32 layersRMSNormPre-AttentionGrouped-Query Attention32Q / 8KV headsHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 14.3k+Final RMSNormOutput Logits

Mistral-7B-Instruct-v0.2

Mistral-7B-Instruct-v0.2 是一款经过指令微调的大语言模型,包含 73 亿个参数。该模型旨在理解并执行特定指令,适用于对话式人工智能、自动化对话系统以及问答和摘要等内容生成任务。它是基于 Mistral-7B-v0.2 基座模型的增强迭代版本,其显著特点在于经过微调的指令遵循能力。

Mistral-7B-Instruct-v0.2 的架构基础是 Transformer,并集成了分组查询注意力(GQA)以优化推理效率。与早期的基座模型相比,该指令变体在架构上的一个关键区别是刻意去除了滑动窗口注意力(Sliding-Window Attention)。取而代之的是,该模型支持扩展至 32,000 个 token 的上下文窗口,从而在保持语义连贯性的同时,能够处理更长的文本序列。它采用了 theta 值设定为 1e6 的旋转位置嵌入(RoPE),并使用 Byte-fallback BPE 分词器以处理多样化的文本输入。

Mistral-7B-Instruct-v0.2 旨在跨多种计算环境(包括本地系统和云平台)进行灵活部署。其运行设计专注于在指令遵循场景中提供精准的性能表现。该模型采用 Apache 2.0 许可证分发,支持不受限制的开放获取、使用以及集成到各种研发项目中。

关于 Mistral 7B

Mistral 7B 是一款拥有 73 亿参数的模型,采用了仅解码器(decoder-only)的 Transformer 架构。它具备滑动窗口注意力(Sliding Window Attention)和分组查询注意力(Grouped Query Attention),可实现高效的长序列处理。其滚动缓冲区缓存(Rolling Buffer Cache)优化了内存使用,这些特性共同构成了其高效语言处理的设计方案。


其他 Mistral 7B 模型

评估基准

排名

#151

基准分数排名

Web 开发

WebDev Arena

1149

86

排名

排名

#151

编程排名

#111

模型完整性

总分

B-

60 / 100

GPU 要求

完整计算器

选择模型权重的量化方法

上下文大小:1024 个令牌

1k
16k
32k

所需显存:

推荐 GPU