尽管参数高效微调(PEFT)方法,如LoRA、QLoRA和适配器微调,在使大型语言模型(LLM)的适应性更易实现和管理方面取得了重要进展,但它们并非万能药。承认它们当前的局限性以及旨在解决这些问题的活跃研究方面很重要。了解这些边界有助于设定实际的预期,并指导未来的发展。性能与完全微调的比较尽管PEFT方法通常能以大幅减少的可训练参数实现非常接近完全微调的性能,但性能差距仍然可能存在,尤其是对于:高度复杂的任务: 需要复杂推理、多步骤逻辑或跨长上下文信息整合的任务,可能仍然能从完全微调的全局参数更新中获得更多益处。大量知识更新: 当目标是根本改变或向基础模型注入大量新事实知识时,PEFT方法(它们只修改一小部分参数)可能不如重新训练网络更大一部分有效。完全微调允许对模型的内部知识表示进行更广泛的调整。极低参数预算: 使用极少参数的方法(例如,使用极短提示的提示微调,或使用极低秩 $r$ 的LoRA)可能没有足够的容量来完全捕捉目标任务的细节,导致相比于具有更多可训练参数的方法或完全微调,性能上限较低。研究继续寻求混合方法和对PEFT技术的改进(例如,在不同层之间改变秩,或结合不同的PEFT方法),以弥补这些剩余的性能差距,同时保留效率优势。超参数敏感性和调整难度PEFT方法引入了新的超参数,需要仔细调整才能获得最佳结果。这些参数包括:LoRA: 秩 ($r$)、缩放因子 ($\alpha$)、目标模块(要适应哪些层)。适配器微调: 瓶颈维度、插入位置。前缀/提示微调: 前缀长度、初始化方法。找到最佳组合可能不简单,并且通常需要大量实验,这可能会抵消训练期间获得的部分计算节省。此外,最佳超参数可能无法很好地泛化到不同的基础模型、数据集或任务上,对于新应用需要重新调整。更自动化超参数优化的策略(例如,使用贝叶斯优化等方法)或开发不那么敏感的PEFT变体,都是活跃的研究方面。多个适配器的组合与干扰在尝试组合多个PEFT模块时,例如同时使用多个LoRA适配器用于多任务学习或动态任务切换,会面临一个重要的实际问题。尽管适配器轻量级,但简单地加载多组权重可能导致:参数干扰: 像LoRA这样的加性方法会修改相同的基础权重。叠加多个LoRA更新 ($W_0 + \Delta W_1 + \Delta W_2$) 可能导致不可预测的相互影响,或与单独使用每个适配器相比性能下降。内存占用增加: 尽管每个适配器都很小,但同时加载多个会增加推理时的内存使用。研究正在寻求方法以实现更好的适配器组合,包括:训练后有效合并适配器的方法。用于任务特定适配器路由或门控的方法。明确鼓励适配器正交性或最小化干扰的训练策略。理解其潜在机制尽管我们有功能性的实现和假设(例如LoRA的低秩假设),但对某些PEFT方法为何如此有效以及如何运作的深刻理论理解仍在发展中。重要的待解决问题包括:LoRA中的低秩更新具体捕获了哪些语言或功能方面?学习到的前缀或提示究竟如何修改模型的内部表示和注意力模式?为什么某些层(如注意力层)通常比其他层更适合作为PEFT的目标?我们能否预先判断哪种PEFT方法最适合特定任务和模型架构?开发针对PEFT的更好可解释性工具和理论框架,对于设计更有效和可靠的适应技术很重要。适应范围:知识与风格正在进行的研究关注PEFT引起的改变的本质。当前的证据显示,许多PEFT方法擅长适应模型的风格、格式或任务特定行为,但在根本性更新或注入新事实知识方面,可能不如完全微调有效。这种区别对于要求模型学习大量新信息与主要需要行为适应的应用很重要。研究旨在增强PEFT方法的知识注入能力。量化相互影响QLoRA显示了将PEFT与量化结合的潜力。然而,激进量化(例如4比特)与低秩更新之间的相互影响很复杂。潜在的问题包括:误差累积: 量化和低秩近似都引入误差。它们的综合效应可能比预期更大地降低性能。最佳量化策略: 标准量化技术应用于基础模型权重和PEFT更新的组合时是否最佳?为PEFT量身定制的量化方案可能会产生更好的结果。需要进一步研究来理解这些相互影响,并制定将PEFT与各种量化方法稳定结合的最佳实践。安全影响PEFT的安全方面相对研究不足。待解决的问题包括:与完全微调的模型相比,PEFT模型更容易或更不容易受到对抗性攻击或数据投毒?适配器机制本身是否可能被用作新的攻击途径,例如通过注入恶意适配器?PEFT如何影响模型隐私以及提取训练数据的可能性?随着PEFT的广泛应用,了解其安全特性将变得越来越重要。缩放法则与可预测性PEFT的有效性如何随模型大小、数据集大小和可训练PEFT参数数量的增加而缩放?为不同的PEFT方法建立可靠的缩放法则,将使实践者能够更好地预测新应用和更大模型的性能和资源需求,类似于预训练大型语言模型时观察到的缩放法则。这些局限性与待解决的问题表明PEFT是一个活跃的方面。持续的研究不断改进现有方法,开发新途径,并更深刻地理解如何高效、有效地适应大型语言模型,用于各种下游应用。