趋近智
Prompt Tuning 和 Prefix Tuning 是旨在通过学习到的输入信号来调整基础模型行为的策略,它们使核心模型参数保持完全不变。这些技术提供了一种替代方法,与修改现有模型权重(例如 LoRA 等低秩修改方法)不同,并且属于参数高效微调 (PEFT) 的范畴。这些方法不改变模型计算的函数 (fheta(x)),而是学习一个特定任务的前缀或提示 (p) 来修改输入或内部状态,有效地计算 fheta(p,x)。这种方法提供了极致的参数效率,因为在调整过程中只优化提示或前缀的参数。
Prompt Tuning 引入一组可学习的连续向量,通常称为“软提示”,直接到冻结的基础模型的输入嵌入序列中。想象将一小段特定任务的“指令”预置到前面,它们不是离散文本,而是通过梯度下降优化的连续嵌入向量。
机制: 设原始输入序列嵌入为 X=[e1,e2,...,en],其中 ei∈Rd 且 d 是嵌入维度。Prompt Tuning 会在前面添加一个包含 k 个可学习提示嵌入的序列 P=[p1,p2,...,pk],其中每个 pj∈Rd 都是一个可训练参数。然后,馈入 Transformer 第一层的修改后的输入序列是 [p1,...,pk,e1,...,en]。
Prompt Tuning 的流程。可训练的软提示嵌入被预置到输入序列嵌入之前,然后由冻结的基础模型处理。
参数效率: 可训练参数的数量极其少:k×d。对于一个典型的基础模型,如果 d=4096 且提示长度 k=20,这只相当于大约 82,000 个参数,比基础模型中数十亿的参数少几个数量级,并且显著少于 LoRA 或 Adapters 在典型配置下的参数量。
训练: 软提示 P 的参数是使用标准的梯度下降技术来优化的,基于特定任务的损失函数(例如,分类任务的交叉熵,生成任务的语言模型损失)。基础模型的参数 (θ) 在整个过程中保持固定。这些提示嵌入的初始化会显著影响性能;常见策略包括从模型的词汇嵌入中采样或使用特定的初始化方案。
优点:
局限:
Prefix Tuning 将学习到的连续提示的理念更进一步,通过将可训练参数直接插入到 Transformer 层的激活状态中,特别是针对多头注意力机制。Prefix Tuning 不仅仅是预置到输入中,它还会将可学习的“前缀”向量添加到每个层(或一部分层)中用于注意力计算的键 (K) 和值 (V) 中。
机制: 对于 Transformer 层,注意力机制根据查询 (Q)、键 (K) 和值 (V) 计算注意力分数。Prefix Tuning 引入一个可训练前缀矩阵 Pprefix∈Rk×d,其中 k 是前缀长度, d 是隐藏维度。这个前缀通常通过小型可训练的前馈网络(重参数化)来投影,以生成层特定的键和值前缀 PK 和 PV,它们的形状都为 Rk×dattn,其中 dattn 是每个头的键/值维度。
这些前缀随后与该层原始的键和值连接起来,然后再进行注意力计算:
K新=连接(PK,K) V新=连接(PV,V)查询 Q 随后会关注这个增强的键和值集合。关键的是,原始模型参数,包括 Q,K,V 的投影矩阵,保持冻结。只有初始前缀矩阵 Pprefix 的参数以及可能的小型重参数化网络会进行训练。
Prefix Tuning 在单个 Transformer 层内的流程。可训练的前缀参数经过处理后,被注入到注意力机制的键 (K) 和值 (V) 矩阵中,影响其行为而不改变冻结的模型权重。
参数效率: 可训练参数的数量取决于前缀长度 k、应用前缀的层数 L 以及隐藏维度 d(或 dattn,取决于实现细节,可能包含小型重参数化网络)。通常,与基础模型相比,参数数量仍然极低,常常与 Prompt Tuning 相当或略多,但显著少于完全微调或 Adapters/LoRA。
表达力和优点:
局限:
Prompt Tuning 和 Prefix Tuning 都通过学习连续向量来提供极致的参数效率,同时保持基础模型冻结。
将这些方法与硬提示(手动编写的文本指令)和上下文学习(在输入中直接提供任务示例而无需梯度更新)区分开来很重要。软提示和前缀是为特定任务优化的学习到的连续表示,它们像是嵌入在模型连续向量空间中的高度专业化、经过梯度调整的指令。总而言之,Prompt Tuning 和 Prefix Tuning 为将大型基础模型调整到下游任务提供了强大、轻量级的机制,在训练和推理过程中计算成本极低。它们代表了与传统微调的显著不同,在保持基础模型完整性的同时,通过学习到的条件信号实现了有效的少样本调整。它们的适用性取决于具体任务、性能要求和可接受的实现复杂性。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造