实现评估循环

为了客观评估模型在训练阶段后的表现，一种可靠的方法必不可少。仅凭训练损失可能产生误导，因为模型可能在训练数据上表现出色，但无法泛化到新的、未见过的数据。评估循环可以解决这一挑战。它的作用是衡量模型在独立数据集（如验证集或测试集）上的表现，这些数据未在权重 (weight)更新过程中使用。

为何需要独立的评估循环？

训练涉及根据训练数据调整模型参数 (parameter)。然而，评估纯粹是为了评测。我们想回答：“给定此输入，模型的预测与实际目标有多接近？”同时不改变模型本身。执行评估需要一个独特的流程，原因有以下几点：

泛化能力评估： 它衡量模型处理训练中未曾见过数据的能力，这是大多数机器学习 (machine learning)任务的最终目标。
防止数据泄露： 使用独立数据集可确保评估数据中的信息不会无意中影响训练过程（例如，被用于梯度更新）。
模型选择与调优： 验证集上的表现常用于选择最佳模型架构、决定何时停止训练（早期停止）或调整超参数 (hyperparameter)。
检测过拟合 (overfitting)： 比较训练集与验证集上的表现有助于识别过拟合。当模型对训练数据（包括其噪声）学习得过于透彻，从而失去泛化能力时，就会发生过拟合。此时训练数据上的表现可能持续提升，而验证数据上的表现却停滞不前或下降。

与训练循环的区别

评估循环与训练循环有相似之处（例如，遍历数据，执行前向传播），但存在重要区别：

不计算梯度： 由于我们只进行评估而不更新权重 (weight)，因此无需计算或存储梯度。这节省了内存和计算资源。
不反向传播 (backpropagation)： 因此，不调用$loss.backward()。
不执行优化器步骤： 模型的权重保持不变，因此不调用$optimizer.step()和$optimizer.zero_grad()。
模型模式： 模型应切换到评估模式。

将模型设置为评估模式：`model.eval()`

PyTorch 模型（nn.Module）有不同的训练和评估模式。你可以使用model.train()和model.eval()在它们之间切换。在开始评估循环之前调用model.eval()非常重要。此调用会通知Dropout和Batch Normalization等层，模型正处于评估阶段。

Dropout 层： 在评估期间被停用。我们希望模型展现其完整的预测能力，而不是随机丢弃神经元。
Batch Normalization 层： 使用训练期间计算的运行统计数据（均值和方差），而不是当前批次的统计数据。这确保了输出的一致性，不受评估批次统计数据的影响。

评估结束后，如果你计划恢复训练（例如，在每个周期后进行评估），请记得使用model.train()将模型切换回训练模式。

禁用梯度计算：`torch.no_grad()`

为防止PyTorch在评估期间跟踪操作并构建用于梯度计算的计算图，你应该将评估循环代码封装在torch.no_grad()上下文 (context)管理器中。

with torch.no_grad():
    # 这里是评估代码...
    # 此块中的操作将不会跟踪梯度。

使用torch.no_grad()主要有两个优点：

效率： 它减少了内存消耗，因为反向传播 (backpropagation)所需的中间激活不会被存储。操作也可能运行得更快。
正确性： 它确保你不会在不需要时意外地计算梯度或尝试执行反向传播。

评估循环的结构

以下是评估函数的一个典型结构：

import torch

def evaluate_model(model, dataloader, criterion, device):
    """在提供的datasets上评估模型。"""
    model.eval()  # 将模型设置为评估模式
    total_loss = 0.0
    correct_predictions = 0
    total_samples = 0

    with torch.no_grad():  # 禁用梯度计算
        for inputs, targets in dataloader:
            # 将数据移动到与模型相同的设备上
            inputs = inputs.to(device)
            targets = targets.to(device)

            # 前向传播
            outputs = model(inputs)

            # 计算损失（可选，但对监控有用）
            loss = criterion(outputs, targets)
            total_loss += loss.item() * inputs.size(0) # 累加批次损失

            # 计算准确率（分类示例）
            _, predicted_labels = torch.max(outputs, dim=1)
            correct_predictions += (predicted_labels == targets).sum().item()
            total_samples += targets.size(0)

    # 计算整个数据集的平均损失和准确率
    average_loss = total_loss / total_samples
    accuracy = correct_predictions / total_samples

    model.train() # 如果之后需要，切换回训练模式
    return average_loss, accuracy

# --- 用法示例 ---
# 假设你已经有：
# model: 你的 nn.Module 模型
# validation_loader: 你的验证集 DataLoader
# criterion: 你的损失函数（例如，nn.CrossEntropyLoss）
# device: torch.device('cuda' if torch.cuda_is_available() else 'cpu')

# val_loss, val_accuracy = evaluate_model(model, validation_loader, criterion, device)
# print(f'Validation Loss: {val_loss:.4f}, Validation Accuracy: {val_accuracy:.4f}')

分步解析：

model.eval()： 将模型切换到评估模式。
初始化指标： 设置变量以累加总损失和正确预测的数量（或其他相关指标）。同时，跟踪评估的总样本数。
with torch.no_grad():： 进入不计算梯度的上下文 (context)。
遍历DataLoader： 循环遍历评估DataLoader提供的批次。
设备放置： 确保输入数据和目标与模型位于同一设备上。
前向传播： 将输入数据通过模型（outputs = model(inputs)）。
计算损失： 使用准则计算损失。使用loss.item()获取当前批次损失的Python标量值，并在累加前乘以批次大小（inputs.size(0)），以处理最后一个批次大小可能存在的差异。
计算指标： 从模型输出中确定预测（例如，对于分类任务，使用torch.max获取最高概率的索引）。将预测与真实目标进行比较，并累加正确预测的数量和总样本数。
汇总结果： 遍历所有批次后，将累加的总量除以处理的总样本数，计算平均损失和总体准确率（或其他指标）。
model.train()（可选）： 如果此评估发生在训练周期之间，将模型切换回训练模式。

此评估循环为模型的泛化表现提供了必要的反馈，指导训练过程并帮助你构建更高效的深度学习 (deep learning)模型。同时监控这些评估指标和训练指标对理解模型行为非常重要。

此图显示了一个常见情况：在若干个周期后，验证损失开始增加，这表明过拟合 (overfitting)已经出现，即使训练损失持续下降。评估循环对于检测这种情况非常重要。

典型的深度学习训练流程，在每个训练周期后加入评估，以监控表现并决定是否继续或停止训练。

这部分内容有帮助吗？

参考文献

Notes on Autograd - Evaluation mode and torch.no_grad(), PyTorch Documentation, 2017 (PyTorch Foundation) - 官方 PyTorch 文档，解释了在评估期间使用 torch.no_grad() 进行内存和计算效率优化的目的和用法，以及 model.eval() 将模型层设置为推理模式。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本深度学习的权威教科书，涵盖了机器学习的基本概念，如泛化、过拟合、欠拟合以及验证集和测试集在模型评估中的作用。
Dive into Deep Learning, Aston Zhang, Zachary C. Lipton, Mu Li, and Alex Smola, 2023 (Cambridge University Press) - 一本交互式开源书籍，为深度学习模型实现提供了实用指导。书中包含训练和评估循环、数据集划分以及解决过拟合问题的详细解释和 PyTorch 代码示例。