Learning to summarize with human feedback, Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano, 2020NeurIPS 2020DOI: 10.48550/arXiv.2009.01325 - 这项开创性工作引入了从人类反馈中进行强化学习(RLHF)的核心方法,用于训练序列生成任务模型,特别是摘要生成。它详细阐述了通过成对比较收集人类偏好数据以训练奖励模型的初步方法。
Inter-Annotator Agreement, Eduard Hovy, Sabine L. L. Lohmann, 2022Encyclopedia of Language and Linguistics (Springer, Cham)DOI: 10.1007/978-3-030-80275-9_38 - 这篇参考文献集中解释了标注者间一致性(IAA)的方法及其在评估人类标注可靠性和一致性方面的重要性,这是偏好数据收集质量控制的关键。它是《数据科学与人机协同》一书中的一个章节。