偏见与公平性评估方法

微调 (fine-tuning)使模型适应特定任务或范围，但此过程可能无意中放大预训练 (pre-training)模型中存在的偏见或从微调数据中引入新偏见。评估这些偏见不仅仅是学术探讨；这是负责任模型开发和部署的必要步骤，尤其是因为标准指标通常无法显示这些细微但重要的方面。评估公平性可确保微调模型的优势得到公平分配，并使不同用户群体的损害减到最少。

了解微调 (fine-tuning)LLM中的偏见

LLM中的偏见可能以多种方式体现，例如：

刻板印象关联: 将特定人群（按性别、种族、宗教、年龄等区分）与特定特质、职业或特征关联起来，以反映社会刻板印象。
性能差异: 在模型微调的任务上，对不同人群表现出不同水平的性能（例如，准确率、错误率）。例如，情感分析器在非洲裔美国人白话英语（AAVE）文本上的表现可能不如标准美式英语文本。
代表性损害: 对某些群体代表不足或错误代表，可能导致边缘化或冒犯。
有害内容生成: 在被问及某些群体或敏感话题时，产生有毒、仇恨或歧视性语言。

如果适配数据存在偏差或反映社会偏见，微调可能会加剧这些问题；如果数据和过程经过精心管理以实现公平，则可能会减轻这些问题。

偏见与公平性评估方法

评估偏见需要采用特定方法，而非使用标准准确率或困惑度分数。以下是一些已确立的方法：

1. 内在偏见探测

这些方法测量模型内部表示中编码的偏见，通常通过分析词或句子嵌入 (embedding)来完成。它们评估模型学习到的关联，与特定下游任务无关。

词嵌入关联测试（WEAT）/ 句子编码器关联测试（SEAT）: 源于心理学，这些测试测量目标思想组（例如，男性姓名与女性姓名；欧美裔美国人姓名与非洲裔美国人姓名）与属性思想组（例如，职业词与家庭词；愉快词与不愉快词）之间的关联强度。核心是计算差异关联。对于一个词 $w$ 和两组属性词 $A$ 和 $B$ ，可以根据余弦相似度定义一个分数： $s(w, A, B) = \text{均值}_{a \in A} \cos(\vec{w}, \vec{a}) - \text{均值}_{b \in B} \cos(\vec{w}, \vec{b})$ WEAT 测试统计量随后比较两组目标思想词 $X$ 和 $Y$ 的均值分数 $s(w, A, B)$ 。显著差异表明嵌入中存在偏见。SEAT 将此思想扩展到句子级别的嵌入。

2. 外在偏见测量

此方法直接评估微调 (fine-tuning)模型针对其预期任务的输出中的偏见。

子群体性能分析: 这涉及分别为不同人群子群体测量标准性能指标（准确率、F1分数、错误率）。例如，如果模型针对毒性检测进行了微调，您将评估其对提及不同身份群体的评论的性能，以检查差异（例如，提及少数群体的评论是否更常被标记 (token)为有毒？）。显著的性能差距表明存在潜在偏见。

下游任务上的性能差异。C 组的准确率明显较低，表明可能存在公平性问题。

反事实评估: 这涉及创建最小输入对，其中只更改与特定人群相关的属性（例如，更改姓名或代词）。比较模型对这些对的输出。预测或情感中与人群属性相关的显著变化表明存在偏见。例如：
- “医生完成了她的轮班。” -> 情感：积极
- “医生完成了他的轮班。” -> 情感：积极（期望输出一致）
- “来自印度的程序员很熟练。” -> 评估：积极
- “来自墨西哥的程序员很熟练。” -> 评估：积极（确保评估一致且公平）
毒性和有害内容检测: 使用特定数据集和提示来引出与敏感群体或话题相关的模型回应。然后，自动化毒性分类器（如 Google 的 Perspective API）或人工评估可以对输出的有害性、刻板印象或仇恨言论进行评分。

3. 标准化基准数据集

已经开发出多个基准数据集，以系统地评估特定类型的偏见：

Bias Bench: 提供了一个框架，用于衡量各种NLP任务中与性别、种族、宗教和政治倾向相关的社会偏见。
StereoSet: 侧重于评估刻板印象偏见，通过要求模型在句子补全任务中，在刻板印象、反刻板印象和无关联想之间做出选择。它测试句内和句间推理 (inference)。
BOLD（开放式语言生成偏见数据集）: 旨在评估开放式文本生成中的偏见。它提供了与不同人群（性别、种族、宗教、职业、政治意识形态）在不同范围（例如，维基百科介绍）相关的提示，并分析生成的文本的情感、倾向、毒性和其他属性。
CrowS-Pairs: 一个包含句子对的数据集，这些句子对将刻板情况与反刻板情况进行对比，测试模型是否会给刻板印象分配更高的概率。

4. 使用专用库

库可以简化这些测试的实施。例如：

Hugging Face 的 evaluate 库包含用于测量SEAT等偏见指标和性能差异的模块。
Fairlearn 提供了评估和减轻机器学习 (machine learning)模型中公平性问题的工具，这些工具可以适应某些LLM评估场景。

挑战与考量

偏见评估很复杂，并伴随着一些固有的难题：

定义与范围: 定义“公平性”取决于语境，且常有争议。何为不可接受的偏见可能有所不同。
交叉性: 偏见通常发生在多种身份（例如，种族和性别）的交汇处。测量这一点需要更复杂的子群体分析。
数据局限: 基准数据集可能不涵盖所有相关人群、语言或文化背景。它们本身也可能包含偏见。 "* 测量局限: WEAT/SEAT 等自动化指标能捕捉特定类型的关联偏见，但可能无法完全反映损害。毒性评分本身可能不可靠或有偏见。"
过度纠正: 缓解尝试有时可能导致不自然或回避的模型行为。

因此，对于微调 (fine-tuning)LLM中偏见与公平性的全面评估，通常需要结合自动化测试、基准数据集和细致的定性分析（常辅以人工评估）的多方面方法。将这些评估融入开发周期对于构建更公平、更可信的语言技术非常重要。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings, Tolga Bolukbasi, Kai-Wei Chang, James Y. Zou, Venkatesh Saligrama, Adam Tauman Kalai, 2016 Advances in Neural Information Processing Systems, Vol. 29 (Curran Associates, Inc.) DOI: 10.55917/cbna.2016.92 - 提出了词嵌入关联测试（WEAT），用于量化和缓解词嵌入中编码的社会偏见，特别是性别刻板印象，是内在偏见评估的基础工作。
Challenges and Approaches for Mitigating Bias and Harm in Large Language Models, Laura Weidinger, John Mellor, Maribeth Smyth, Tom Mellor, Dinah Gloor, Laura Hughes, Leslie Garcia-Amaya, Matthew N. Rahtz, Jonathan F. Simon, Hannah Sheahan, Mario Lucic, Peter S. Park, Javier Snape, Manu Saraswat, M. F. W. Ver Steeg, Geoffrey Irving, Iason Gabriel, 2021 Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 35 (AAAI Press) DOI: 10.1609/aaai.v35i17.17709 - 全面概述了大型语言模型中偏见和危害的挑战，并讨论了各种缓解方法和评估技术。
Fairness in Machine Learning: A Survey, Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, Aram Galstyan, 2021 ACM Computing Surveys (CSUR), Vol. 54 (Association for Computing Machinery (ACM)) DOI: 10.1145/3457607 - 提供了一份关于机器学习中公平性定义、偏见类型和缓解技术的广泛调查，为理解大型语言模型相关概念提供了基础。