自动化提示词测试方法

当您迭代您的提示词 (prompt)时，手动针对少量输入测试每个变体很快就会变得不切实际。如何确保一个能改善某种输入性能的改动不会降低其他输入的性能？如何可靠地比较数百或数千个潜在交互中两个略有不同的提示词措辞？手动测试缺少规模、一致性和速度。在这种情况下，自动化提示词测试就成为系统化开发过程的必要组成部分。

主要想法是将提示词工程更像软件开发一样对待，纳入自动化检查以验证行为并防止功能退化。不再手动输入并检查输出，您可以创建一个结构化流程，针对预定义测试用例运行提示词，并以编程方式评估结果。

自动化测试设置的组成部分

自动化提示词 (prompt)测试工作流程通常包含几个主要组成部分：

测试套件: 代表您的应用需要处理的各种情况的输入示例集合。这些可以包括:
- 黄金示例: 您有已知理想输出的输入。
- 边缘情况: 用于查找提示词中潜在弱点或模糊性的输入（例如，空输入、非常长的输入、令人困惑的指令）。
- 对抗性示例: 旨在故意误导大型语言模型或引起不良行为的输入（尽管设计这些可能很复杂）。
- 多样化情景: 典型用户输入的代表性样本。
提示词变体: 您想要比较的不同版本的提示词。这可以是微小的措辞更改、结构修改或不同的参数 (parameter)设置（例如温度）。
执行引擎: 以编程方式将每个提示词变体与每个测试用例输入发送到目标大型语言模型API的代码。这通常涉及处理API密钥、管理请求和存储响应。
评估逻辑: 用于自动评估给定测试用例和提示词变体下大型语言模型响应质量的函数或标准。这通常是最具挑战性的部分。
报告: 一种总结结果的机制，指出哪些提示词在总体上或特定类型的测试用例上表现最佳。

自动化提示词测试的典型工作流程。

评估策略

自动评估大型语言模型非结构化自然语言输出并非易事。常见方法从简单的检查到更复杂的方式不等：

精确匹配: 当所需输出受到高度限制时非常有用（例如，生成特定的JSON结构、提取电话号码、单个特定词语答案）。这易于实现，但很少适用于创意或总结任务。
关键词/子字符串匹配: 检查响应中是否存在特定词语或短语。用于验证是否包含某些重要信息或是否避免了禁止的话题。
正则表达式匹配: 定义模式以检查输出是否符合特定格式（例如，电子邮件地址格式、日期格式）。
格式检查（例如，JSON/XML验证）: 如果您提示大型语言模型生成结构化数据，请解析输出并根据预期模式进行验证。像Python中的Pydantic这样的库在这里很有用。
语义相似度: 使用嵌入 (embedding)模型（稍后在RAG上下文 (context)讨论）将生成的响应和参考“良好”响应转换为向量 (vector)表示。计算这些向量之间的余弦相似度或另一个距离度量。高相似度表明生成的响应在语义上接近理想响应。这对于措辞可以变化但核心含义应保留的任务非常有效。
大型语言模型作评判: 使用另一个（通常更强大）大型语言模型根据提示词 (prompt)中提供的特定标准评估响应。例如，您可以使用预定义的评分标准，要求GPT-4评估由较小模型生成的响应的帮助性、正确性和清晰度。这很灵活，但会带来额外的成本和潜在的不一致性。

import json
from pydantic import BaseModel, ValidationError

# 预期JSON输出的Pydantic模型示例
class UserInfo(BaseModel):
    name: str
    user_id: int
    email: str

def evaluate_json_output(llm_response_text: str) -> bool:
    """
    检查大型语言模型响应是否为符合UserInfo模式的有效JSON。
    如果有效则返回True，否则返回False。
    """
    try:
        data = json.loads(llm_response_text)
        UserInfo(**data) # Validate against the Pydantic model
        return True
    except (json.JSONDecodeError, ValidationError):
        return False

# --- 示例用法 ---
good_response = '{"name": "Alice", "user_id": 123, "email": "[email protected]"}'
bad_response_format = '{"name": Bob, "user_id": 456, "email": "[email protected]"}' # 无效JSON
bad_response_schema = '{"name": "Charlie", "id": 789, "email_address": "[email protected]"}' # 错误的字段名

print(f"良好响应有效: {evaluate_json_output(good_response)}")
# 输出: Good response valid: True

print(f"格式错误响应有效: {evaluate_json_output(bad_response_format)}")
# 输出: Bad format response valid: False

print(f"模式错误响应有效: {evaluate_json_output(bad_response_schema)}")
# 输出: Bad schema response valid: False

使用Pydantic验证结构化JSON输出的简单Python示例。

自动化测试的实现

您不一定需要复杂的框架才能开始。一个简单的实现可能包括：

将测试用例（输入，以及可选的理想输出/标准）存储在文件中（例如，CSV，JSON）。
编写一个读取测试用例和提示词 (prompt)变体的Python脚本。
遍历每种组合，调用大型语言模型API。
对响应应用一个或多个评估函数（如上面evaluate_json_output示例，或关键词检查）。
将结果（输入、提示词变体、响应、评估得分/状态）记录到另一个文件或数据库。

随着需求的增长，专用工具和库可以帮助更有效地管理此过程。一些大型语言模型框架（如LangChain，稍后会讲到）包含用于评估的模块。还有专门专注于大型语言模型评估的开源库（例如，TruLens、Ragas、DeepEval），它们提供更精细的指标和追踪功能。

自动化测试在提示词迭代过程中提供了一个安全保障。它让您可以更自由地实验，因为您知道可以快速验证更改是否在大量输入上产生了意外的负面影响。这种系统化方法对于在大型语言模型之上构建可靠应用至关重要。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Holistic Evaluation of Language Models, Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian Cosgrove, Christopher D. Manning, Christopher Ré, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, Yuta Koreeda, 2023 Transactions on Machine Learning Research (TMLR) DOI: 10.48550/arXiv.2211.09110 - 提供了一个评估大型语言模型（LLMs）的广泛框架，涵盖了多种标准和任务，为自动化测试策略提供了背景信息。
BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi, 2020 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1904.09675 - 提出了一种基于上下文嵌入的语义相似度来评估文本生成质量的常用指标，与自动化评估相关。
LangChain Evaluation, LangChain Team, 2024 (LangChain) - 流行大型语言模型框架的评估功能官方文档，展示了自动化测试工作流的实际实现。