内容审核集成

对齐 (alignment)技术旨在让LLM本身更安全，但这些方法很少是万无一失的。模型仍然可能生成不期望的、有害的或违反政策的内容，特别是在遇到新颖输入或对抗性提示时。集成专用的内容审核功能提供了必要的第二道防线，在LLM的输出到达最终用户或影响下游流程之前对其进行检查。此处详细介绍将此类审核机制纳入LLM应用架构的策略。

在此文中，内容审核指分析文本（无论是用户输入还是LLM输出）以识别并过滤违反预设政策的内容的过程。这些政策通常针对以下类别：

仇恨言论和骚扰
露骨或血腥暴力
性露骨内容
宣传非法行为或危险活动
个人身份信息 (PII)
错误信息或虚假信息（尽管这更难可靠地自动化）
垃圾邮件或不必要的商业内容

有效集成审核有助于执行平台安全标准、遵守法规并维护用户信任。

LLM工作流程中的集成点

LLM应用中有两个主要的内容审核应用点：

输入审核（预处理）： 在将用户的提示发送给LLM之前进行分析。
- 目的： 阻止用户故意尝试引出有害内容、检查漏洞（如第5章讨论的提示注入尝试），或提交滥用文本。
- 优势： 可以在LLM处理请求之前停止有害交互，可能节省计算资源并缩小攻击面。
- 缺点： 如果不仔细调整，可能会无意中阻止合法提示。在交互开始时增加延迟。可能无法捕获看似无害输入生成的有害输出。
输出审核（后处理）： 在向用户显示LLM生成的响应之前进行分析。
- 目的： 捕获LLM本身生成的任何有害、偏见或不适当的内容，即使已进行对齐 (alignment)工作。
- 优势： 直接处理用户将看到的内容。作为最终安全检查。通常被认为是LLM应用中最重要的审核点。
- 缺点： 在LLM生成响应之后增加延迟。需要处理您自己系统可能生成的有害内容。

一种常见且通常有效的策略是，将输出审核作为标准做法实施，并可选择性地添加输入审核，如果特定威胁模型（例如，用户滥用行为的高风险）需要。

LLM应用中包含可选输入审核和标准输出审核的典型工作流程。任一阶段检测到有害内容都会导致阻止或提供安全备用响应。

选择审核工具

有几种类型的工具可以进行内容审核，每种都有其取舍：

关键词/正则表达式过滤器： 最简单的方法涉及禁止词列表或匹配有害模式的正则表达式。
- 优点： 易于实现，计算成本低，逻辑透明。
- 缺点： 非常脆弱，容易被拼写错误、变体字或同义词绕过。误报率高（例如，在讨论历史时阻止“刺客”）和漏报率高（遗漏有害内容）。单独使用通常不足以保证安全。
机器学习 (machine learning)分类器： 这些模型经过专门训练，将文本分类到不同类别（例如，“仇恨言论”、“性露骨内容”、“安全”）。
- 优点： 比简单过滤器更能理解语境。对简单规避技术更具弹性。可以为分类提供置信度分数。
- 缺点： 需要大量带标签的训练数据。可能从训练数据中继承偏差。可能仍然容易受到复杂的对抗性攻击。计算成本可能比简单过滤器高。性能因具体任务和数据质量而异。
第三方审核API： 几家提供商通过API调用提供专门的内容审核服务（例如，OpenAI审核端点、Google Cloud自然语言API、AWS Comprehend，以及像Perspective API这样的专业厂商）。
- 优点： 现成的解决方案，通常使用大型、复杂的模型。集成相对容易。提供商管理模型更新和维护。
- 缺点： 每次API调用的成本。网络请求引入的延迟。数据隐私考量（向第三方发送用户/LLM文本）。对底层模型和分类逻辑的控制较少。潜在的厂商锁定。
混合方法： 结合多种方法通常会产生最佳结果。例如，使用快速关键词过滤器捕获明显违规，然后对更模糊的案例使用ML分类器或API调用。
人工干预（HITL）： 整合人工审核员来处理自动化系统不确定的标记 (token)内容、管理用户申诉，或提供反馈以改进自动化模型。HITL对于准确性和公平性很重要，但会增加显著的操作复杂性和成本。

对于需要可靠安全性的高级LLM应用，仅依赖关键词过滤器是不够的。通常建议使用ML分类器（无论是自托管还是通过第三方API）。

实施考量

集成审核需要仔细考量：

API调用： 当使用外部API或作为端点提供服务的内部ML模型时，请构建您的应用逻辑，将相关文本（输入提示或LLM输出）发送到审核服务并接收分类结果。这通常涉及标准的REST API调用。
延迟预算： 每次审核检查都会增加延迟。特别是输出审核，会延迟用户看到的响应。请考量您的应用可接受的延迟。策略包括：
- 优化审核模型/服务以提高速度。
- 选择地理位置接近的API端点。
- 对于不太重要的审核任务，可考虑使用异步检查（尽管实时阻止通常需要同步检查）。
根据审核结果采取行动： 根据审核结果定义明确的行动：
- 阻止： 如果以高置信度检测到有害内容，则完全丢弃输入/输出。
- 备用响应： 提供通用、安全的响应，而不是被阻止的内容（例如，“我无法回应此请求。请尝试其他内容。”）。
- 日志记录： 始终记录审核事件（输入/输出文本、分类结果、置信度分数、采取的行动），用于监控、分析和潜在的人工复核。
- 阈值调整： ML分类器通常返回置信度分数（ $p(\text{有害}| \text{文本})$ ）。设定采取行动的适当阈值。较低的阈值会提高安全性，但可能导致更多误报（阻止安全内容）。较高的阈值会减少误报，但会增加遗漏有害内容的风险。这种取舍需要根据应用风险承受能力进行仔细平衡。
错误处理： 如果审核服务失败或超时会怎样？实施弹性错误处理，例如默认采取安全状态（例如，阻止内容或提供特定错误消息）。
上下文 (context)管理： 标准审核工具通常单独分析文本。在会话应用中，语句的有害性可能取决于之前的对话回合。将相关的会话历史传递给审核工具（如果支持）可以提高准确性，但会增加复杂性和成本。

内容审核的集成不是一项一次性任务。它需要持续监控其有效性（误报/漏报率），更新模型或规则以处理新的滥用方式，并随着平台标准的演变调整策略。它构成本章讨论的系统级安全架构的必要组成部分，补充对齐 (alignment)技术和防护措施，以创建更可靠的LLM应用。

这部分内容有帮助吗？

参考文献

Moderation Guide, OpenAI, 2024 (OpenAI) - 使用知名第三方内容审核API处理LLM输入和输出的实践指南。
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned, Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, Andy Jones, Sam Bowman, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, Nelson Elhage, Sheer El-Showk, Stanislav Fort, Zac Hatfield-Dodds, Tom Henighan, Danny Hernandez, Tristan Hume, Josh Jacobson, Scott Johnston, Shauna Kravec, Catherine Olsson, Sam Ringer, Eli Tran-Johnson, Dario Amodei, Tom Brown, Nicholas Joseph, Sam McCandlish, Chris Olah, Jared Kaplan, Jack Clark, 2022 arXiv preprint arXiv:2209.07858 DOI: 10.48550/arXiv.2209.07858 - 讨论识别和缓解大型语言模型中危害的方法，为内容审核系统作为辅助防御层提供背景。