趋近智
多模态 (multimodal)AI模型的构成要素包括:如何从文本和图像等不同数据类型中获取特征,能够处理这些特征的神经网络 (neural network)层种类,以及如何使用损失函数 (loss function)来衡量模型表现。但模型究竟如何变得更好?它是如何学习的?这就是训练发挥作用的地方。训练是通过向多模态AI模型展示大量样本,教导它做出准确预测或生成有用输出的过程。
从核心来看,训练AI模型,包括多模态 (multimodal)模型,是一个优化问题。想象一台有许多刻度盘和旋钮的复杂机器。这些刻度盘和旋钮代表模型的内部参数 (parameter)(常被称为权重 (weight)和偏差)。初次构建模型时,这些参数通常被设置为随机初始值。这表示模型最初不知道如何执行其任务,就像一个第一天上学、没有任何先验知识的学生。
训练的目的是系统地调整这些参数,使模型在指定任务上表现更好。“更好”由我们之前讨论的损失函数 (loss function)定义。损失越低,表示模型的预测越接近实际的正确答案(真实值)。
要开始训练多模态 (multimodal)AI系统,你需要一些重要组成部分:
多模态数据集:这是你的样本集合。对于多模态AI,这意味着你需要将不同模态配对的数据。
你的多模态模型架构:这是你设计的结构,包括:
损失函数 (loss function):如你所知,此函数衡量模型预测与数据集中实际真实值之间的差异。训练的目标是使此损失最小化。
优化器:这是一个算法,决定了模型参数如何根据损失进行更新。将其视为推动学习过程的引擎。它使用来自损失的信息(特别是梯度)来决定参数变化的方向和大小。你可能听过的一些常见优化器包括SGD(随机梯度下降 (gradient descent))和Adam。目前,只需知道优化器的作用是智能地调整模型参数以减少损失。
训练通常在一个名为训练循环的迭代过程中进行。以下是每次迭代中发生的情况的典型流程:
初始化:训练开始前,模型参数 (parameter)会被初始化,通常是小的随机数。
获取批次数据:为了避免一次性将整个数据集提供给模型(这可能计算成本高昂),我们通常将其分成更小的块,称为批次,进行处理。因此,迭代的第一步是从训练集中获取下一批多模态 (multimodal)数据(例如,几十对图像-标注)。
前向传播:输入数据批次被送入模型。
计算损失:使用损失函数 (loss function)将模型的预测与真实标签(例如,这些图像的人工标注)进行比较。这会得到一个数字(或一组数字),表示模型在此批次中“错误”的程度。
反向传播 (backpropagation):这是学习发生的地方。模型使用一种名为反向传播的技术,计算模型中每个参数对计算出的损失的贡献程度。它计算梯度,梯度本质上是指出如何更改每个参数以减少损失的方向。可以将其视为模型获得反馈:“你犯了这个错误,这些特定设置(参数)是主要原因。尝试这样调整它们。”
更新参数:优化器接收这些梯度并更新模型的参数。它对参数进行微小调整,朝着应减少损失的方向。这些调整的大小通常由学习率控制,学习率就像优化器所采取的步长。
重复:步骤2到6针对多个批次重复进行,直到模型处理完训练集中的所有数据。完整地通过整个训练数据集一次称为一个周期(epoch)。训练通常涉及运行多个周期,让模型多次查看数据并逐步优化其参数。
下面是显示此迭代过程的图示:
训练循环涉及迭代处理数据批次、进行预测、计算损失并更新模型参数,以使损失最小化。
仅仅让训练循环运行是不够的。你需要监控学习的进展情况。这通常通过追踪损失来完成:
理想情况下,训练损失和验证损失都应下降。然而,有时训练损失持续下降,但验证损失开始上升。这是过拟合 (overfitting)的迹象。过拟合意味着模型对训练数据学习得太好,包括其噪声和特定特性,结果导致它在新数据上表现不佳。这就像一个学生只记住了某次考试的答案,但没有真正理解未来考试所需的基本内容。
避免过拟合的一个简单方法是早期停止:你监控验证损失,如果它在一定数量的周期内没有改善,就停止训练,并可能恢复到产生最佳验证表现的模型参数 (parameter)。
训练多模态系统还有一些额外要考虑的方面:
总而言之,训练多模态AI系统是一个迭代过程,包括输入数据,让它进行预测,告知其错误程度,然后让它自行调整以便下次做得更好。它是构建任何有效AI模型的根本组成部分,使其能够从一组未初始化的参数 (parameter)转变为一个能执行复杂多模态任务的系统。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造