趋近智
参数
7.3B
上下文长度
32.768K
模态
Text
架构
Dense
许可证
Apache 2.0
发布日期
15 Jan 2024
训练数据截止日期
Dec 2023
注意力
注意力结构
Grouped-Query Attention
注意力头
32
键值头
8
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
1,000,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
4,096
层数
32
FFN 中间层大小(稠密层)
14,336
多 Token 预测头数
-
分词器
词汇量大小
32,000
Mistral-7B-Instruct-v0.2 是一款经过指令微调的大语言模型,包含 73 亿个参数。该模型旨在理解并执行特定指令,适用于对话式人工智能、自动化对话系统以及问答和摘要等内容生成任务。它是基于 Mistral-7B-v0.2 基座模型的增强迭代版本,其显著特点在于经过微调的指令遵循能力。
Mistral-7B-Instruct-v0.2 的架构基础是 Transformer,并集成了分组查询注意力(GQA)以优化推理效率。与早期的基座模型相比,该指令变体在架构上的一个关键区别是刻意去除了滑动窗口注意力(Sliding-Window Attention)。取而代之的是,该模型支持扩展至 32,000 个 token 的上下文窗口,从而在保持语义连贯性的同时,能够处理更长的文本序列。它采用了 theta 值设定为 1e6 的旋转位置嵌入(RoPE),并使用 Byte-fallback BPE 分词器以处理多样化的文本输入。
Mistral-7B-Instruct-v0.2 旨在跨多种计算环境(包括本地系统和云平台)进行灵活部署。其运行设计专注于在指令遵循场景中提供精准的性能表现。该模型采用 Apache 2.0 许可证分发,支持不受限制的开放获取、使用以及集成到各种研发项目中。
Mistral 7B 是一款拥有 73 亿参数的模型,采用了仅解码器(decoder-only)的 Transformer 架构。它具备滑动窗口注意力(Sliding Window Attention)和分组查询注意力(Grouped Query Attention),可实现高效的长序列处理。其滚动缓冲区缓存(Rolling Buffer Cache)优化了内存使用,这些特性共同构成了其高效语言处理的设计方案。
排名
#151
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1149 | 86 |
APX AI
在线