趋近智
不同量化方法和上下文大小的显存要求
1024 个令牌
消费级
2x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
128000 个令牌
消费级
3x RTX 4090
24GB VRAM
数据中心
1x NVIDIA A100
80GB VRAM
Apple Silicon
1x Apple M3 Max
128GB VRAM
排名
#152
| 基准 | 分数 | 排名 |
|---|---|---|
Web 开发 WebDev Arena | 1198 | 99 |
通用文本 Text Arena | 1197 | 100 |
排名
#152
编程排名
#115
Phi-3-medium 是由微软开发的一款紧凑型、高性能大语言模型,属于 Phi-3 系列模型。该模型拥有 140 亿个参数,旨在用于广泛的商业和研究应用,特别是在内存或计算资源受限的环境以及对延迟敏感的场景中。该模型旨在提供强大的推理能力,特别是在数学、逻辑和代码生成方面,将其定位为开发生成式人工智能功能的基础组件。
Phi-3-medium 的训练方法采用了高质量、推理密集型的数据集,该数据集是其前代模型 Phi-2 所用数据的精炼和扩展版本。该数据集结合了经过严格筛选的公开网页内容和合成生成的数据,确保了模型的鲁棒性及其对指令的遵循能力。训练过程包括有监督微调 (SFT) 和直接偏好优化 (DPO),以增强其精确遵循指令的能力并强化安全措施。
该模型采用仅解码器(decoder-only)的稠密 Transformer 架构,这是自回归语言建模任务中一种通用且有效的结构。其内部机制包括用于高效内存利用和处理的分组查询注意力 (GQA)、用于稳定训练的均方根 (RMS) 归一化,以及用于处理序列位置信息的旋转位置嵌入 (RoPE)。RoPE 的一种名为 LongRope 的特定变体,使模型能够处理长达 128,000 个 token 的超长上下文。Phi-3-medium 针对多种硬件(包括 GPU、CPU 和移动设备)的部署进行了优化,通常利用 ONNX Runtime 和 DirectML 等技术来实现跨平台兼容性和高效推理。
注意力
注意力结构
Grouped-Query Attention
注意力头
40
键值头
10
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
Yes
滑动窗口大小
2,047
归一化
RMS Normalization
激活函数
Swish
维度
隐藏维度大小
5,120
层数
40
FFN 中间层大小(稠密层)
17,920
多 Token 预测头数
-
分词器
词汇量大小
32,064
微软的 Phi-3 模型是专为在资源受限设备上高效运行而设计的小型语言模型。该系列模型采用 Transformer 解码器架构,并在经过严格过滤的高质量数据(包括合成素材)上进行训练。这种方法打造出了一个尺寸精简但功能强大的模型家族。
APX AI
在线