趋近智
注意力
注意力结构
Multi-Head Attention
注意力头
32
键值头
32
注意力头维度
-
位置嵌入
ROPE
RoPE Theta
10,000
滑动窗口注意力
No
滑动窗口大小
-
归一化
Layer Normalization
激活函数
GELU
维度
隐藏维度大小
2,048
层数
32
FFN 中间层大小(稠密层)
10,240
多 Token 预测头数
-
分词器
词汇量大小
51,200
Microsoft Phi-2 是一款拥有 27 亿参数的小型语言模型 (SLM),体现了微软研究院在开发紧凑规模高性能模型方面的持续努力。该模型旨在促进语言理解和推理研究,同时强调效率和可访问性。其发布的一个核心目标是为研究界提供一个不受限制的小型模型,用于研究关键的安全挑战,包括缓解毒性和分析 AI 系统中的社会偏见。
Phi-2 的架构基础是基于 Transformer 的设计,采用了下一个词预测(next-word prediction)目标。其训练方法优先考虑数据质量,使用了由合成数据和经过严格筛选的网络数据组成的 1.4 万亿标记 (token) 的海量语料库。合成数据部分利用 GPT-3.5 和 GPT-4 等先进模型生成,专注于“教材级质量”的内容,以赋予模型强大的常识推理、通用知识以及科学等特定领域的专业理解。网络数据经过了严格过滤,以确保高教育价值和内容完整性。Phi-2 的训练过程历时 14 天,利用了包含 96 个 A100 GPU 的集群,并整合了 Flash Attention 等技术。值得注意的是,Phi-2 是一个基座模型,尚未通过来自人类反馈的强化学习 (RLHF) 或显式的指令微调进行对齐,但在处理毒性和偏见方面表现出了良好的行为。
Phi-2 的性能特征使其成为处理各种自然语言处理应用(包括问答、对话式 AI 和代码生成)的高效工具。其紧凑的参数量使其适合在消费级 GPU 上部署,从而实现高效推理。该模型展示了强大的推理和语言理解能力,在特定基准测试中的表现通常与更大规模的模型相当甚至更优。其设计有助于在机械可解释性(mechanistic interpretability)和微调实验等领域进行探索,对于旨在利用资源高效型语言模型进行创新的研究人员和开发者而言,它是一项宝贵的资源。
微软的 Phi-2 是一个拥有 27 亿参数的 Transformer 架构模型,专为高效的语言理解和推理而开发。其技术创新包括使用“教科书级质量”的合成数据和筛选后的网络数据进行训练,并结合了其前身 Phi-1.5 的规模化知识迁移,从而在紧凑的架构中实现了涌现能力。
没有可用的 Phi-2 评估基准。
APX AI
在线