大型语言模型应用测试概述

传统软件测试是一项成熟的实践。您提供一个已知输入，并预期得到一个已知且确定性的输出。如果您构建一个将两个数字相加的函数，add(2, 2) 必须始终返回 4。这种可预测性是自动化测试框架的基础，它使开发者能够构建持续集成流程，以便在问题上线前发现并解决。

然而，大型语言模型驱动的应用程序对这一基础提出了挑战。大型语言模型本身的特性引入了多变性和不确定性，这可能导致传统测试方法变得不可靠、成本高昂且运行缓慢。

不确定性的难题

测试大型语言模型应用的首要难题在于其不确定性行为。当您向一个 temperature 设置大于零的模型发送提示时，即使输入相同，也无法保证每次都收到相同的回复。模型可能会重新措辞句子、使用同义词或以不同方式组织其回复。

尽管这种多变性是一个特点，使大型语言模型显得有创造性和自然，但它对于传统的断言式测试来说是一个突出问题。设想一个生成俳句的简单函数：

import unittest
import random

def generate_haiku(topic: str) -> str:
    # 这个函数通常会调用一个大型语言模型 API。
    # 我们在此模拟其不确定性行为。
    if topic == "winter":
        return random.choice([
            "Winter's cold hold,\nSnowflakes fall on silent ground,\nPeace settles.",
            "Silent, soft, and white,\nWinter's blanket on the land,\nNature is at rest."
        ])
    return "No haiku found."

class TestHaikuGenerator(unittest.TestCase):
    def test_winter_haiku(self):
        expected_output = "Winter's cold,\nSnowflakes fall on silent ground,\nPeace settles the earth."
        actual_output = generate_haiku("winter")
        
        # 这个断言大约有 50% 的几率会失败。
        self.assertEqual(expected_output, actual_output)

这个测试是“不稳定”的。它这次通过，下次可能就失败，并非因为我们代码中有bug，而是因为大型语言模型返回了一个不同但同样有效的俳句。一个充满不稳定测试的测试集很快会被置之不理，违背了自动化测试的初衷。

语义正确性与精确匹配

另一个难题是评估语义正确性。大型语言模型可能会生成一个事实正确但措辞与您测试的预期输出不同的答案。例如，如果您预期“Paris is the capital of France”，模型可能会返回“The capital of France is Paris”。两者都正确，但简单的字符串比较会失败。

测试大型语言模型输出需要摆脱精确匹配的断言方式，转向评估其含义。这通常涉及更精巧的方法，例如：

关键词检查： 验证是否存在核心词汇。
正则表达式： 匹配输出中的特定结构或模式。
以大型语言模型作裁判： 调用另一个大型语言模型，根据一组标准评估回复质量。

实时API带来的实际困难

在测试集中依赖实时大型语言模型 API 调用会带来一些实际问题：

成本： 每次调用专属模型 API 的测试运行都会产生费用。对于一个拥有数百个测试且在 CI/CD 流程中频繁运行的项目，这些成本会迅速累积。
延迟： 调用大型模型的 API 可能需要几秒钟。一个原本应在毫秒内完成的测试集可能会变得非常慢，需要数分钟才能完成。这种延迟会阻碍频繁测试并减慢开发速度。
外部依赖： 您的测试会变得依赖于外部服务的可用性和性能。网络问题、API 调用频率限制或提供商中断都可能导致测试失败，即使您的应用程序代码本身没有问题。

分层测试方法

为应对这些难题，最好为大型语言模型应用采用分层测试策略。与其将应用程序视为一个单一、不可测试的黑盒 (black box)，不如以不同方式测试其各个组成部分。

分层测试策略可以在大型语言模型应用流程的不同阶段实现有针对性的质量保障。

单元测试： 用于测试应用程序的确定性部分，例如数据准备和输出解析。在此阶段，您通过用可预测的“模拟”替代实际的 API 调用，将代码与大型语言模型隔离。这使得您的测试快速、免费且完全可靠。
集成测试： 用于验证所有组件是否协同正常工作。这些测试可能会使用真实的大型语言模型，但侧重于验证最终输出的结构、格式或质量，而非其精确内容。例如，输出是否包含有效的 JSON？是否不含不良内容？
评估： 这是一种更全面的测试形式，应用程序针对更大的输入数据集运行，以衡量准确性、相关性和忠实度等性能指标。这不仅仅是简单的通过/失败判断，更多的是关于理解系统整体质量。

本章侧重于前两个层次：使用模拟构建可靠的单元测试和执行输出验证。通过职责分离，您可以构建一个全面的测试集，让您对应用程序的可靠性充满信心，同时避免了针对实时大型语言模型进行测试的弊端。

这部分内容有帮助吗？

参考文献

Holistic Evaluation of Language Models, Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, Deepak Narayanan, Yuhuai Wu, Ananya Kumar, Benjamin Newman, Binhang Yuan, Bobby Yan, Ce Zhang, Christian Cosgrove, Christopher D. Manning, Christopher Ré, Diana Acosta-Navas, Drew A. Hudson, Eric Zelikman, Esin Durmus, Faisal Ladhak, Frieda Rong, Hongyu Ren, Huaxiu Yao, Jue Wang, Keshav Santhanam, Laurel Orr, Lucia Zheng, Mert Yuksekgonul, Mirac Suzgun, Nathan Kim, Neel Guha, Niladri Chatterji, Omar Khattab, Peter Henderson, Qian Huang, Ryan Chi, Sang Michael Xie, Shibani Santurkar, Surya Ganguli, Tatsunori Hashimoto, Thomas Icard, Tianyi Zhang, Vishrav Chaudhary, William Wang, Xuechen Li, Yifan Mai, Yuhui Zhang, Yuta Koreeda, 2023 Transactions on Machine Learning Research (TMLR) DOI: 10.48550/arXiv.2211.09110 - 这篇基础性论文提出了一个评估语言模型在各种场景下的综合框架，帮助读者理解与LLM应用质量相关的基准和指标。
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica, 2023 NeurIPS 2023 Datasets and Benchmarks Track DOI: 10.48550/arXiv.2306.05685 - 这篇论文详细介绍了使用大型语言模型作为裁判来评估其他LLM输出质量的有效性和局限性，与语义正确性测试直接相关。
Building LLM-Powered Applications: From Prompt Engineering to Production, Josh Harrison, Andrew Ng, Jon Krohn, Sinan Ozdemir, 2023 (O'Reilly Media) - 这本书为LLM应用的端到端开发提供了实用指导，涵盖了设计、测试策略和部署考虑，以构建可靠的系统。