完成RLHF流程的各个阶段后,重点将转向评估所得模型的一致性,并为投入实际使用做好准备。本章提供关于评估通过人类反馈训练的模型、理解其行为以及处理部署考量的指导。我们将考察衡量一致性的方法,包括具体指标、人类评估规范和自动化基准。此外,您将学习如何分析RL微调期间的模型变化,通过“红队”等技术进行安全评估,并了解计算成本和可扩展性因素。本章以部署经过RLHF微调模型的实际方面作结。