ApX 标志ApX 标志

趋近智

Phi-3-medium

参数

14B

上下文长度

128K

模态

Text

架构

Dense

许可证

MIT

发布日期

22 Apr 2024

训练数据截止日期

Oct 2023

系统要求

不同量化方法和上下文大小的显存要求

1024 个令牌

31.12 GB VRAM

消费级

2x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

128000 个令牌

58.43 GB VRAM

消费级

3x RTX 4090

24GB VRAM

数据中心

1x NVIDIA A100

80GB VRAM

Apple Silicon

1x Apple M3 Max

128GB VRAM

架构图

Input TokensToken EmbeddingPosition: RoPEHidden: 5.1k · Context: 128K · Vocab: 32.1kx 40 layersRMSNormPre-AttentionGrouped-Query Attention40Q / 10KV heads · SW: 2kHead dim: 128+RMSNormPre-FFNFeed-Forward NetworkSwishIntermediate: 17.9k+Final RMSNormOutput Logits

评估基准

排名

#152

基准分数排名

Web 开发

WebDev Arena

1198

99

通用文本

Text Arena

1197

100

排名

排名

#152

编程排名

#115

关于 Phi-3-medium

Phi-3-medium 是由微软开发的一款紧凑型、高性能大语言模型,属于 Phi-3 系列模型。该模型拥有 140 亿个参数,旨在用于广泛的商业和研究应用,特别是在内存或计算资源受限的环境以及对延迟敏感的场景中。该模型旨在提供强大的推理能力,特别是在数学、逻辑和代码生成方面,将其定位为开发生成式人工智能功能的基础组件。

Phi-3-medium 的训练方法采用了高质量、推理密集型的数据集,该数据集是其前代模型 Phi-2 所用数据的精炼和扩展版本。该数据集结合了经过严格筛选的公开网页内容和合成生成的数据,确保了模型的鲁棒性及其对指令的遵循能力。训练过程包括有监督微调 (SFT) 和直接偏好优化 (DPO),以增强其精确遵循指令的能力并强化安全措施。

该模型采用仅解码器(decoder-only)的稠密 Transformer 架构,这是自回归语言建模任务中一种通用且有效的结构。其内部机制包括用于高效内存利用和处理的分组查询注意力 (GQA)、用于稳定训练的均方根 (RMS) 归一化,以及用于处理序列位置信息的旋转位置嵌入 (RoPE)。RoPE 的一种名为 LongRope 的特定变体,使模型能够处理长达 128,000 个 token 的超长上下文。Phi-3-medium 针对多种硬件(包括 GPU、CPU 和移动设备)的部署进行了优化,通常利用 ONNX Runtime 和 DirectML 等技术来实现跨平台兼容性和高效推理。

技术规格

注意力

注意力结构

Grouped-Query Attention

注意力头

40

键值头

10

注意力头维度

-

位置嵌入

ROPE

RoPE Theta

10,000

滑动窗口注意力

Yes

滑动窗口大小

2,047

归一化

RMS Normalization

激活函数

Swish

维度

隐藏维度大小

5,120

层数

40

FFN 中间层大小(稠密层)

17,920

多 Token 预测头数

-

分词器

词汇量大小

32,064

模型完整性

总分

B+

71 / 100

关于 Phi-3

微软的 Phi-3 模型是专为在资源受限设备上高效运行而设计的小型语言模型。该系列模型采用 Transformer 解码器架构,并在经过严格过滤的高质量数据(包括合成素材)上进行训练。这种方法打造出了一个尺寸精简但功能强大的模型家族。


其他 Phi-3 模型