趋近智
参数
7.3B
上下文长度
8K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
27 Sept 2023
训练数据截止日期
-
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
Yes
滑动窗口大小
4,096
归一化
RMS Normalization
激活函数
SwigLU
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
14,336
多 Token 预测头数
-
分词器
词汇量大小
32,000
Mistral-7B-Instruct-v0.1 模型是由 Mistral AI 开发的 Mistral-7B-v0.1 生成式文本模型的指令微调变体。其主要目的是通过精确理解并响应指令性提示,从而支持对话式 AI 和助手任务。该模型专为效率而设计,为语言处理应用提供了一种紧凑且高性能的解决方案。
在架构方面,Mistral-7B-Instruct-v0.1 是一种仅解码器(decoder-only)的 Transformer 模型。它采用了多项先进技术以增强计算效率和上下文管理能力。其中包括用于加速推理的分组查询注意力(Grouped-Query Attention, GQA)以及滑动窗口注意力(Sliding-Window Attention, SWA),后者通过关注固定窗口内的先前隐藏状态,能够更有效地处理较长的输入序列。该模型使用旋转位置嵌入(Rotary Position Embedding, RoPE)进行位置编码,并采用 RMS 归一化(RMS Normalization)。其分词工作由 Byte-fallback BPE 分词器处理。
在功能方面,Mistral-7B-Instruct-v0.1 适用于各种文本处理场景。它擅长生成连贯的文本、回答问题以及执行通用的自然语言处理任务。具体应用包括对话式 AI 系统、教育工具、客户支持界面和知识检索助手。由于采用了优化架构,其设计还支持实时内容生成和高能效的 AI 部署。
Mistral 7B 是一款拥有 73 亿参数的模型,采用了仅解码器(decoder-only)的 Transformer 架构。它具备滑动窗口注意力(Sliding Window Attention)和分组查询注意力(Grouped Query Attention),可实现高效的长序列处理。其滚动缓冲区缓存(Rolling Buffer Cache)优化了内存使用,这些特性共同构成了其高效语言处理的设计方案。
没有可用的 Mistral-7B-Instruct-v0.1 评估基准。
APX AI
在线