趋近智
模型训练是使用准备好的干净数据来教导机器学习 (machine learning)模型的过程,使算法能够学会进行预测或决策。训练很少是单一、直接的动作。它是一个反复实验的循环,通过尝试不同的方法来为特定问题找到最有效的模型。这种训练与系统化实验的结合是机器学习生命周期中的核心活动。
从本质上讲,模型训练是一个优化问题。你为机器学习 (machine learning)算法提供训练数据,它尝试寻找将输入特征映射到输出标签的内部模式。这种“学习”由损失函数 (loss function)引导,该函数根据模型预测的不准确程度计算惩罚分数。训练过程的目标是调整模型的内部变量(称为参数 (parameter)),使损失尽可能低。
例如,考虑一个预测房价的简单线性回归模型。模型的公式为 ,其中:
在训练期间,算法会接收许多具有已知价格的房屋示例。它反复调整 和 以最小化损失函数,例如均方误差 (MSE),该函数衡量预测价格与实际价格之间的平均平方差。
当算法找到使训练数据损失达到最低的参数值时,训练过程即告完成。
如果训练只是为了最小化损失函数 (loss function),你可能会奇怪为什么它不是一个全自动的、一步到位的过程。原因是在训练开始之前,机器学习 (machine learning)从业者必须做出几个定义模型如何学习的选择。这些选择不是从数据中学习到的,而是由你配置的设置。这些设置被称为超参数 (parameter) (hyperparameter)。
超参数的例子包括:
略有不同的超参数值或不同的特征选择可能导致模型性能产生很大差异。系统地尝试算法、特征和超参数的各种组合以找到性能最佳的模型的过程称为实验。
如果没有结构化的流程,实验很快就会变得杂乱无章。你可能会发现自己拥有几十个 Jupyter notebook,以及名称令人困惑的模型文件(如 model_final_v3.pkl),并且没有明确记录哪些参数 (parameter)或数据版本产生了最好的结果。这使得重新复现工作或自信地选择模型进行部署变得不可能。
MLOps 引入了一个解决方案:实验追踪。这是一种系统地记录训练运行所有组成部分的实践。对于每一次实验,你应该记录:
通过追踪这些组件,每次训练运行都变成了一个自包含的、可复现的实验。
实验是其输入(代码、数据、参数)和输出(指标、模型产物)的集合。
典型的实验工作流遵循明确的科学方法。你不是随机更改设置,而是形成假设并进行测试。
比较不同实验运行的性能指标有助于识别表现最好的模型。在这种情况下,将树的数量从 50 增加到 100 带来了不错的提升,而增加到 150 带来的收益微乎其微。
一旦确定了符合性能标准的模型,你就可以将其“晋升”到生命周期的下一个阶段:在预留测试集上进行正式评估和验证。这种结构化的方法将模型开发从一种混乱的技艺转变为规范的工程实践,这是构建可靠且自动化的机器学习 (machine learning)系统的基础。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•