虽然LLM压缩和加速的主要目的是提高计算效率(减少模型大小、延迟和成本),但这些干预并非独立进行。优化模型必然会改变其内部表示和计算路径。因此,有必要彻底评估这些变化如何影响公平性和鲁棒性等主要的非功能属性。仅仅追求速度提升或大小缩减而不考虑这些方面,可能导致模型在实践中不可靠、存在偏见或容易失效。了解潜在影响优化技术本身涉及信息缩减或近似。此过程可能会无意中丢弃对不同人口群体间公平对待,或在严苛条件下维持性能而言很重要的信息。量化: 降低数值精度可能会合并原始模型中曾有区分的表示。如果这些表示对应于对处理特定子群体或边缘情况很重要的细微差异,量化可能会导致这些场景下的性能下降。低位量化(例如INT4、NF4)对异常值可能特别敏感,这些异常值可能是鲁棒性的重要信号,或代表少数群体的特征。激进的量化可能不成比例地影响模型对不常见模式或思想的处理,从而可能加剧现有偏见。剪枝: 移除权重、神经元甚至整个结构组件(如注意力头或FFN层),是根据特定标准(例如幅度)认为不那么重要的参数。然而,这个重要性指标通常与一般基准测试中的整体性能相关联。被剪枝的元素可能对某些特定的、不那么常见的任务,或处理与特定人口群体相关的语言很重要,也可能为抵御输入噪声或对抗性扰动提供冗余以维持性能。结构化剪枝虽然对硬件友好,但可能特别生硬,可能整体性地移除功能。知识蒸馏: 学生模型学习模仿教师模型。虽然这会转移一般能力,但也容易转移教师模型的偏见。如果教师模型表现出不公平的性能差异或缺乏鲁棒性,学生模型很可能会继承这些缺陷。此外,蒸馏过程本身可能引入新的问题。学生模型由于较小,可能缺乏捕捉教师模型全部行为的能力,这可能以负面影响公平性或鲁棒性的方式简化决策边界,即使教师模型相对表现良好。蒸馏目标函数的选择也会影响教师模型知识(包括偏见)中哪些方面得到优先处理。参数高效微调(PEFT): 像LoRA或Adapter这样的方法只修改模型参数的一小部分。虽然效率高,但这表示预训练模型的大部分表示(包括任何固有偏见或脆弱性)保持不变。在特定下游任务上微调可能会轻微调整行为,但通常不足以纠正预训练中根深蒂固的问题。此外,如果微调数据本身有偏见或缺乏多样性,PEFT可以在适应任务的范围内放大这些问题,导致模型在狭窄的微调分布上表现良好,但在其之外则不公平或脆弱。评估策略与指标衡量对公平性和鲁棒性的影响需要专门的评估规程,而非标准准确性或困惑度指标。公平性评估目标是评估优化后的模型是否在预定义群体(例如,基于性别、种族、方言、社会经济地位)之间表现出性能或行为上的系统性差异。分解性能指标: 分别为不同人口子群体计算标准指标(准确率、F1、困惑度、BLEU、ROUGE等)。群体间显著的性能差距表明优化可能引入或加剧了潜在的公平性问题。示例:在量化前后,评估模型对不同方言使用者所写文本的情感分析准确率。偏见基准: 使用专门设计用于检测社会偏见的数据集。示例包括:StereoSet: 衡量职业、性别和种族等方面的刻板印象关联。CrowS-Pairs: 类似于StereoSet,侧重于比较刻板印象与反刻板印象句子。BOLD(开放式语言生成中的偏见): 通过分析对不同群体的情感和态度,评估文本生成任务中跨各种人口轴的公平性。ToxiGen: 衡量模型生成有害语言的倾向,特别是在收到与特定身份群体相关的文本提示时。反事实评估: 通过最小化地更改输入以反映不同的群体身份(例如,更改姓名或代词)来测试模型预测,并观察输出是否出现不希望的改变。鲁棒性评估鲁棒性评估模型在面对噪声、对抗性或分布外(OOD)输入时的稳定性与性能一致性。分布外(OOD)泛化: 在与训练或微调分布有很大差异的数据集上评估优化后的模型。这测试了其在不熟悉数据中的泛化能力。领域适应基准等技术(例如,评估在新闻文章上训练的模型在社交媒体帖子上的表现)在此处适用。对抗性攻击: 使模型面临专门制作以导致错误分类或不良行为的输入。常见的攻击方法包括FGSM(快速梯度符号法)、PGD(投影梯度下降)以及基于文本的攻击,如TextFooler或DeepWordBug。测量原始模型和优化模型在攻击下的攻击成功率或性能下降。扰动敏感性: 在输入数据中引入随机噪声或损坏(例如,拼写错误、同义词替换、句子乱序、嵌入中添加噪声),并测量性能下降。优化后的模型由于冗余减少,可能显示出更高的敏感性。边缘情况下的性能: 评估模型在其应用范围内已知困难或罕见情况下的性能。优化可能不成比例地影响这些不常见输入上的性能。对比分析框架仅凭孤立地评估优化后的模型是不够的。与原始、未经优化的基线模型进行对比分析是必不可少的。这有助于隔离优化技术本身的具体影响。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", fontsize=10]; edge [fontname="sans-serif", fontsize=9]; subgraph cluster_orig { label = "原始LLM"; style=filled; color="#e9ecef"; OrigModel [label="原始\n模型"]; OrigEval [label="评估:\n- 性能\n- 公平性\n- 鲁棒性"]; OrigModel -> OrigEval; } subgraph cluster_opt { label = "优化后LLM"; style=filled; color="#d0bfff"; OptTech [label="应用优化\n(量化、剪枝、蒸馏等)", shape=ellipse, style=filled, fillcolor="#91a7ff"]; OptModel [label="优化后\n模型"]; OptEval [label="评估:\n- 性能\n- 公平性\n- 鲁棒性"]; OptModel -> OptEval; } OrigModel -> OptTech; Compare [label="比较结果:\n识别公平性\n和鲁棒性的下降或改进", shape=cds, style=filled, fillcolor="#ffe066"]; OrigEval -> Compare [label="基线指标"]; OptEval -> Compare [label="优化后指标"]; }评估优化技术对公平性和鲁棒性影响的典型工作流程,涉及将优化模型的指标与原始基线模型的指标进行比较。缓解策略如果在优化后观察到公平性或鲁棒性出现显著下降,可以考虑几种缓解策略,尽管这些策略通常会涉及自身的权衡:公平性/鲁棒性感知优化: 修改优化过程本身。量化: 使用QAT,并在损失函数中加入公平性或鲁棒性项。采用非均匀量化方案,为重要的值范围保留更多精度。剪枝: 制定明确考虑公平性指标或鲁棒性得分以及标准损失的剪枝标准。避免剪枝已知对某些能力必不可少的结构。蒸馏: 使用多样化、去偏的数据来训练学生模型。将公平性约束纳入蒸馏目标。仔细选择教师模型。事后调整: 在主要优化步骤之后应用校正。这可能涉及在平衡数据集上微调优化后的模型,或使用专门设计用于改善公平性或鲁棒性的校准技术。选择性优化: 仅对模型中对公平性或鲁棒性不太重要的部分进行激进优化,对敏感组件使用更高的精度或更少的剪枝。数据增强: 在优化期间或之后,使用专门设计用于改善公平性(例如,反事实示例)或鲁棒性(例如,对抗性示例、带噪声数据)的示例来增强训练/校准/微调数据。评估和减轻效率技术对公平性和鲁棒性的影响是一个活跃的研究方面。这需要一种仔细、感知上下文的方法,认识到优化不仅仅是技术操作,而是对LLM如何运行和交互具有实际后果。将这些考量直接纳入优化工作流程对开发高效且负责任的AI系统很重要。