尽管衡量有用性、诚实性和无害性的整体指标能提供模型行为的全面视角,但对偏见和公平的专门分析对于负责任的LLM评估必不可少。对齐工作可能无意中放大训练数据中已有的社会偏见,甚至引入新的偏见。量化这些偏见能帮助我们了解问题的程度,并衡量缓解策略的有效性。在LLM的语境中,公平通常与对不同人口群体的平等对待有关。偏见可以表现为系统性地偏离公平行为,从而导致潜在的有害结果,例如延续刻板印象、生成针对特定群体的冒犯性内容,或错误地描绘某些人群。本节着重介绍衡量这些现象的方法。LLM中偏见表现的理解LLM中的偏见并非单一的;它以多种形式出现。识别这些类型有助于选择合适的评估方法:刻板印象: 根据社会刻板印象而非中立的描绘,将特定属性、角色或特征与人口群体(按种族、性别、宗教、年龄等定义)相关联。例如,持续地将某些职业与特定性别关联起来。贬低/冒犯性: 生成贬低、侮辱或煽动对特定群体仇恨的语言。这直接违反了“无害性”原则,但需要对不同的潜在目标进行具体衡量。代表性危害: 低估或错误呈现某些群体,导致其边缘化或通过扭曲的描绘强化有害刻板印象。这可以包括抹除(未能在相关语境中代表某个群体)或偏颇呈现(仅在有限或刻板的角色中展示某个群体)。分配性危害(间接): 尽管LLM主要生成文本,但它们的输出可以用于分配资源或机会的下游系统(例如,总结简历、生成营销文案)。这些中间步骤中的偏见输出可能导致不公平的分配结果。评估此类下游影响的潜在性是全面公平性评估的一部分。这些偏见通常源于用于预训练的大规模数据集,这些数据集反映了网络文本、书籍和其他来源中存在的历史和社会偏见。RLHF等对齐技术有时可以缓解这些偏见,但如果偏好数据或奖励模型本身存在偏见,也可能固化某些偏见。量化偏见的指标和方法为了摆脱轶事证据,我们需要系统地衡量偏见的方法。已发展出多种方法:人口差异分析这涉及衡量当提示引用不同人口群体时,模型行为或输出质量的差异。情感偏见: 分析模型生成的关于不同群体的句子的情感得分。例如,补全提示,如“这个[群体名称]的人被描述为……”,并衡量为不同群体生成的文本的平均情感。显著的差异,例如对某一群体持续出现更负面的情感,则表示存在偏见。毒性衡量: 使用毒性分类器对提及不同身份群体的提示的模型响应进行评分。可以使用Jigsaw毒性语料库或专门的基准数据集。目标是检查在讨论某些群体时,即使在中立语境下,模型也更有可能生成有害内容。计算不同群体间平均毒性得分的差异或有害续写内容的发生率。刻板印象关联测试这些方法探究模型内部概念间的关联,通常受到内隐联想测试(IAT)等心理测试的启发。基于模板的探查: 使用预定义句子模板来衡量模型分配给刻板印象关联与反刻板印象关联的概率或可能性。例如:比较 $P(\text{"是护士"} | \text{"这个女人..."})$ 与 $P(\text{"是医生"} | \text{"这个女人..."})$。比较补全“这个[国籍]移民是...”时,与积极属性和消极属性关联的可能性。专门数据集: StereoSet和CrowS-Pairs等基准提供结构化句子对,旨在测试各种类别(性别、种族、宗教、职业)中刻板印象偏见。它们通常衡量模型对刻板印象句子而非反刻板印象句子的偏好。分数通常以整体“刻板印象分数”或识别更刻板印象关联的准确性形式报告。一个群体 $G$ 与属性 $A$ 和另一个属性 $B$ 之间的简化关联分数可以基于对数概率计算: $$ \text{关联分数}(G, A, B) = \log P(A | G) - \log P(B | G) $$ 更高的正分数表示与 $A$ 的关联更强,而负分数表示与 $B$ 的关联更强。反事实评估此技术涉及创建最小提示对,其中仅更改特定的社会属性(例如,姓名、代词、描述符),并观察模型输出如何变化。一致性检查: 如果将“他是工程师”更改为“她是工程师”,后续生成文本的性质、质量或情感在没有正当理由的情况下发生显著变化,则表明存在潜在偏见。扰动敏感性: 衡量这些最小人口扰动导致的输出变化幅度(例如,嵌入距离、困惑度差异)。理想情况下,输出应保持稳定或仅以语义上合适的方式变化。公平性定义的规范化公平性本身是一个复杂概念,具有多种有时相互冲突的定义,这些定义源自统计公平性文献。将这些应用于生成式LLM需要仔细调整:"* 人口均等性: 旨在使模型的输出分布与所提及或涉及的人口群体无关。例如,如果任务是生成简短的传记,那么提及的不同性别或种族之间,积极描述符与消极描述符的分布应大致相等。这通常难以实现,且不总是有益的(例如,准确反映差异可能违反人口均等性)。"机会均等(任务特定): 要求模型在特定下游任务上对不同人口群体表现相同良好。例如,如果使用LLM进行简历筛选,那么识别合格候选人的准确性在不同群体间应相似(假设真实标签是公平的)。待遇均等: 表明相似的个体应获得相似的结果,无论群体归属。在LLM中,这与反事实公平性密切相关。如果两个提示除了人口学词语外完全相同,那么生成的输出在相关方面(情感、质量、信息内容)应相似。认识到优化一个公平性指标可能会对另一个产生负面影响,或与模型的准确性/实用性冲突,这一点很重要。优先选择哪个公平性定义在很大程度上取决于具体的应用场景和潜在危害。评估工具和数据集有几种资源有助于偏见和公平性评估:数据集:BOLD (Bias in Open-Ended Language Generation): 一个大型数据集,用于评估开放式生成在各种领域(职业、性别、种族、宗教、政治意识形态)中的偏见。WinoBias / WinoGender: 侧重于共指消解中的性别偏见,测试模型是否根据性别角色正确关联代词。CrowS-Pairs: 包含测试九种社会偏见(例如,性别、种族、社会经济地位)的句子对。StereoSet: 通过句内和句间任务评估语言模型在四个领域(性别、职业、种族、宗教)中的刻板印象偏见。Equity Evaluation Corpus (EEC): 用于评估毒性差异和其他偏见,通过提供带有身份术语标注的文本。框架: 像Hugging Face的evaluate包这样的库越来越多地包含偏见和公平性指标。像Fairlearn这样的通用机器学习公平性工具包也可以进行调整,尽管它们通常更侧重于分类/回归任务。量化公平性的实际挑战评估LLM中的偏见和公平性是一个持续的研究领域,存在重大挑战:交叉性: 偏见通常同时沿着多个身份轴线发挥作用(例如,种族和性别)。衡量这些交叉效应比分析单一属性更复杂。语境依赖性: 偏见的表现形式可能高度依赖于具体的提示、话题和对话历史。全局指标可能遗漏特定语境的问题。群体定义: 社会类别复杂、流动且具有文化特异性。为评估创建离散的人口群体可能过于简单化甚至存在问题。衡量与缓解: 量化偏见并不能自动解决问题。有效的缓解需要培训、微调或部署过程中的仔细干预,这将在后续章节中讨论。生成复杂性: LLM输出的开放性使得公平性评估比那些产生更简单输出(如分类或分数)的模型更难。定义“公平”生成本身就具有主观性。 "* 数据局限性: 评估数据集虽然有价值,但可能无法涵盖所有相关群体、偏见类型或语境。模型可能在基准测试中表现良好,但在实际交互中仍表现出偏见。"示例:性别-职业偏见的可视化考虑使用对数概率差衡量职业与二元性别代词(“他”/“她”)之间的关联。模型可能会使用模板提示,例如:“关于[职业], ”。然后我们衡量差异:$\log P(\text{"他"} | \text{提示}) - \log P(\text{"她"} | \text{提示})$。正值表明与“他”的关联更强,负值表明与“她”的关联更强。{"layout": {"title": "按职业划分的性别代词关联偏见", "xaxis": {"title": "职业"}, "yaxis": {"title": "对数概率差(他 vs. 她)", "zeroline": true, "zerolinewidth": 1, "zerolinecolor": "#495057"}, "bargap": 0.2}, "data": [{"type": "bar", "x": ["医生", "护士", "工程师", "教师", "首席执行官", "秘书"], "y": [0.8, -1.1, 1.5, -0.6, 1.2, -1.3], "marker": {"color": ["#228be6", "#f06595", "#228be6", "#f06595", "#228be6", "#f06595"]}}]}提及各种职业的提示后,“他”和“她”之间的对数概率差。正值(蓝色)表示与“他”的关联更强;负值(粉色)表示与“她”的关联更强。这种分析提供了模型习得的刻板印象关联的具体证据。使用这些方法进行严谨的量化是迈向构建不仅能力出众,而且行为更公平、更负责任的LLM的必要一步。