趋近智
在考察了大型语言模型的对齐 (alignment)方法后,下一步自然是明确这些方法的效果如何,以及所得模型是否真正安全。构建LLM是过程的一部分;严格评估其行为是另一个重要环节。如果没有扎实的评估,关于对齐和安全性的说法就缺乏依据。
本章提供进行此项评估所需的技术和框架。我们将介绍:
学完本章,你将了解如何运用多方面方法来评估LLM的对齐性和安全特征,从而从零散的检查转向更系统的分析。
4.1 定义安全方面:无害性、诚实性、有用性
4.2 自动化评估基准 (HELM, TruthfulQA)
4.3 人工评估安全规程
4.4 大型语言模型的红队演练方法
4.5 LLM中偏见与公平的量化
4.6 评估对分布偏移的韧性
4.7 可扩展且可靠评估面临的挑战
4.8 动手实践:应用安全基准