词嵌入关联测试(WEAT)/ 句子编码器关联测试(SEAT): 源于心理学,这些测试测量目标思想组(例如,男性姓名与女性姓名;欧美裔美国人姓名与非洲裔美国人姓名)与属性思想组(例如,职业词与家庭词;愉快词与不愉快词)之间的关联强度。核心是计算差异关联。对于一个词 w 和两组属性词 A 和 B,可以根据余弦相似度定义一个分数:
s(w,A,B)=均值a∈Acos(w,a)−均值b∈Bcos(w,b)
WEAT 测试统计量随后比较两组目标思想词 X 和 Y 的均值分数 s(w,A,B)。显著差异表明嵌入中存在偏见。SEAT 将此思想扩展到句子级别的嵌入。
Challenges and Approaches for Mitigating Bias and Harm in Large Language Models, Laura Weidinger, John Mellor, Maribeth Smyth, Tom Mellor, Dinah Gloor, Laura Hughes, Leslie Garcia-Amaya, Matthew N. Rahtz, Jonathan F. Simon, Hannah Sheahan, Mario Lucic, Peter S. Park, Javier Snape, Manu Saraswat, M. F. W. Ver Steeg, Geoffrey Irving, Iason Gabriel, 2021Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 35 (AAAI Press)DOI: 10.1609/aaai.v35i17.17709 - 全面概述了大型语言模型中偏见和危害的挑战,并讨论了各种缓解方法和评估技术。
Fairness in Machine Learning: A Survey, Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, Aram Galstyan, 2021ACM Computing Surveys (CSUR), Vol. 54 (Association for Computing Machinery (ACM))DOI: 10.1145/3457607 - 提供了一份关于机器学习中公平性定义、偏见类型和缓解技术的广泛调查,为理解大型语言模型相关概念提供了基础。