定义自定义评估指标

虽然准确率、精确率和召回率等标准机器学习 (machine learning)指标提供了一个基准，但它们在评估使用大型语言模型（LLM）构建的应用的多方面表现时往往不足。LLM 的输出具有连贯性、相关性、有用性、安全性以及对特定格式或语气的遵守等特性，这些特性难以通过简单的量化 (quantization)衡量方式来捕捉。有效评估生产环境中的 LangChain 应用，需要定义根据其特定功能和预期行为量身定制的自定义指标。

超出简单的正确性检查，您能够衡量对应用成功真正有意义的方面。例如，您的 RAG 系统是否检索到相关上下文 (context)并忠实地基于其给出答案？您的客服代理是否保持了有用且安全的语气？您的摘要工具是否准确把握了核心内容而没有歪曲？回答这些问题需要定制的评估策略。

为什么标准指标常常不足

传统指标通常依赖于精确匹配或预定义的分类。然而，LLM 的输出通常是生成式的：

主观性： “有用性”、“创造性”或“语气”等特质本身就是主观的，并且依赖于具体情况。
语义等价性： LLM 可能会生成一个完全有效的答案，但其措辞与“真实情况”参考不同，导致尽管正确却未能通过精确匹配测试。
安全性和偏见： 标准指标很少考虑有害内容生成、偏见或伦理一致性。
格式依从性： 应用可能需要特定格式的输出（例如，JSON、特定的 XML 结构），这不能仅通过语义正确性来衡量。
上下文 (context)相关性（RAG）： 评估检索增强生成 (RAG)包括评估检索到的文档的相关性以及最终答案对该上下文的忠实性。

因此，开发自定义评估指标成为构建可靠 LLM 应用的重要一步。

自定义评估指标的分类

自定义指标可以根据它们评估输出的方式进行大致分类：

程序化与基于规则的指标： 这些指标涉及编写代码来检查具体的客观标准。
- 格式验证： 输出是否符合所需的 JSON 模式、XML 结构或列表格式？在您的评估函数中使用标准解析库（例如，json、xml.etree.ElementTree）。
- 长度限制： 摘要是否在指定的单词/token 计数范围内？
- 关键词存在/缺失： 输出是否包含必需的关键词或避免禁用词（例如，检查 PII 标记 (token)，确保包含特定品牌术语）？
- API 调用验证（代理）： 代理是否使用有效参数 (parameter)调用了正确的工具 API？检查代理的执行路径以获取工具名称和输入参数。
语义相似度指标： 这些指标使用嵌入 (embedding)来衡量生成输出与参考答案或输入查询/上下文 (context)之间的语义接近程度。
- 嵌入距离： 为生成输出和参考答案生成嵌入（使用 Sentence-BERT 或 OpenAI 嵌入等模型）。计算余弦相似度或欧氏距离。高相似度表明语义等价性。 $\text{余弦相似度}(A, B) = \frac{A \cdot B}{\|A\| \|B\|}$
- 上下文相关性（RAG）： 计算输入查询与检索到的文档片段之间的语义相似度。
- 忠实性（RAG）： 衡量生成答案与它所依据的检索上下文之间的语义相似度。低相似度可能表示幻觉 (hallucination)。
基于模型的评估（LLM 作为评判者）： 这种技术使用另一个 LLM（通常是像 GPT-4 这样能力强的模型）根据提示中定义的具体标准来评估输出。
- 提示打分： 设计一个提示，指导评判 LLM 根据有用性、连贯性、安全性或事实准确性等标准，以数字等级（例如，1-5 分）评估输出。在评判者的提示中包含输入、输出以及可能的参考答案/上下文。
- 提示解释： 不仅要求评判 LLM 打分，还要它提供对其推理 (inference)的文本解释。这提供了定性反馈。
- 特定方面评估： 使用独立的评判提示来独立评估不同方面（例如，一个用于语气，一个用于事实准确性）。
```
# LLM 作为评判者提示结构的简化示例
EVALUATION_PROMPT = """
您是一位公正的评估者。请根据提供的“上下文”和“查询”，评估提交的“回复”的质量。

查询：{query}
上下文：{context}
回复：{response}

请根据以下标准，以 1 到 5 的等级（1=差，5=优秀）评估回复：
1. 忠实性：回复是否准确反映了上下文中的信息，而没有添加未经证实的说法？
2. 相关性：回复是否与查询直接相关？

请以 JSON 格式提供您的分数：{"忠实性": score, "相关性": score}
"""
```
人工参与（HITL）： 直接从人类收集反馈仍然是衡量主观品质的黄金标准。
- 直接反馈： 在您的应用中集成机制（例如，点赞/点踩按钮、评分量表、评论框），以便用户提供反馈。
- 标注平台： 使用平台（包括 LangSmith 的标注队列），让专业人工评审员根据详细的评分标准对输出进行评分，尤其是在开发和测试期间。

实现自定义评估器

LangChain 提供了抽象功能，通常与 LangSmith 集成，以简化自定义评估器的实现。通常，您会定义一个评估函数或类，它接收运行信息（输入、输出等）并返回一个 EvaluationResult。

from langsmith.evaluation import EvaluationResult, run_evaluator

# 示例：程序化指标，检查输出是否包含特定的警告短语
@run_evaluator
def must_contain_warning(run, example) -> EvaluationResult:
    """检查输出是否包含 'Warning:'。"""
    # 安全获取输出，如果缺失则默认为空字符串
    output = run.outputs.get("output") if run.outputs else ""
    
    if isinstance(output, str) and "Warning:" in output:
        score = 1 # 包含警告
    else:
        score = 0 # 不包含警告
        
    return EvaluationResult(key="contains_warning", score=score)

# 示例：简化的语义相似度检查
# 假设 `get_embedding` 和 `cosine_similarity` 在其他地方定义
@run_evaluator
def check_semantic_similarity(run, example) -> EvaluationResult:
    """比较输出嵌入与参考答案嵌入。"""
    output = run.outputs.get("output") if run.outputs else ""
    reference = example.outputs.get("reference_answer") if example.outputs else ""

    if not output or not reference:
        return EvaluationResult(key="semantic_similarity", score=0, comment="Missing output or reference")

    output_embedding = get_embedding(output)
    reference_embedding = get_embedding(reference)
    similarity = cosine_similarity(output_embedding, reference_embedding) # 返回 -1 到 1 之间的值

    # 如果需要，将分数归一化到 0-1 以保持一致性
    normalized_score = (similarity + 1) / 2
    return EvaluationResult(key="semantic_similarity", score=normalized_score)

这些评估器函数可以应用于 LangSmith 中的数据集，或用于自定义评估脚本。

不同的评估方法评估生成输出，产生分数和定性反馈。

定义指标时

与目标一致： 指标必须直接反映应用的目标。创意写作助手所需的指标与事实问答系统不同。
成本与收益： LLM 作为评判者和人工评估可能成本高昂或耗时。平衡评估需求与可用资源。程序化检查成本较低但不够全面。
一致性和可靠性： LLM 作为评判者的评估可能因评判模型和提示而异。确保提示清晰并测试一致性。人工评估需要明确的评分标准和可能的多名评审员。
定义“真实情况”： 对于生成式任务，可能不存在单一的“正确”答案。使用参考答案、黄金数据集或评分标准中定义的原则作为比较依据。
迭代： 您对“良好”表现的理解会不断发展。随着收集到更多数据和用户反馈，重新审视并改进您的指标。

通过深思熟虑地定义自定义指标，您能更好地了解您的 LangChain 应用的表现，从而实现有针对性的改进，并确保其满足生产环境的特定要求。这些指标为本章后续讨论的自动化评估流程和监控策略奠定了基础。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, Nils Reimers, Iryna Gurevych, 2019 Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (Association for Computational Linguistics) DOI: 10.18653/v1/D19-1410 - 介绍了一种推导具有语义意义的句子嵌入的方法，这是语义相似性度量的基础。
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica, 2023 NeurIPS 2023 Datasets and Benchmarks Track DOI: 10.48550/arXiv.2306.05685 - 研究了将大型语言模型用作评估器（LLM-as-a-judge）的可靠性和能力。
Retrieval-Augmented Generation for Large Language Models: A Survey, Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, Haofen Wang, 2023 arXiv preprint arXiv:2312.10997 DOI: 10.48550/arXiv.2312.10997 - 概述了检索增强生成，包括RAG系统相关的评估指标。