趋近智
理论是一个很好的起点,但要做出划算的选择,需要实际操作。在本节中,您将把所学的云计费模型知识应用到一个常见的机器学习场景中。通过一个具体的例子,您将看到计费模型的选择如何大幅影响训练任务的最终成本。
假设您的任务是为一个图像分类任务训练一个计算机视觉模型。以下是此任务的具体信息:
计算训练任务的预计成本需要考虑多种云计费模型。一个配备A10G GPU的虚拟机实例,其定价将用于说明这一计算过程。
| 服务/实例类型 | 单位价格 | 备注 |
|---|---|---|
| 按需实例 | $1.20 / 小时 | 按秒计费,无承诺。 |
| 一年期预留实例 | $0.72 / 小时 (实际费率) | 需要一年期预付承诺。 |
| 竞价实例 | $0.36 / 小时 (平均价格) | 价格波动;平均70%折扣。 |
| 竞价中断率 | 每24小时中断1次 | 此工作量的假设。 |
| 中断开销 | 15分钟 | 从检查点重新启动任务所损失的时间。 |
| 数据传出费用 | $0.09 / GB | 将数据传出云的成本。 |
我们来计算每种选项的成本。
这是最直接的计算方法,作为我们的基准。成本就是小时费率乘以任务的总持续时间。
按需成本=小时费率×持续时间 按需成本=$1.20/小时×100 小时=$120.00按需成本提供了最大的灵活性,无需承诺,但它是最昂贵的选项。
使用预留实例(RI)可以获得显著折扣,以换取长期承诺。对于此任务,我们根据实际小时费率计算成本。
预留成本=实际小时费率×持续时间 预留成本=$0.72/小时×100 小时=$72.00与按需价格相比,这节省了40%。然而,请记住,组织承诺为此实例支付一整年的费用。只有当您有持续的工作量来让实例在其承诺期的大部分时间里得到使用时,此选项才是真正划算的。
竞价实例提供最大幅度的折扣,但伴随中断风险。我们的计算必须考虑此风险,即加上因中断而损失的时间成本。
首先,我们来确定在100小时任务运行期间预期的中断次数。
中断次数=每次中断小时数总持续时间=24 小时/中断100 小时≈4.17我们向上取整到5次中断,以保守估计。
接下来,计算总开销时间。这是每次中断后重新启动任务所花费的时间。
总开销=中断次数×中断开销 总开销=5 次中断×15 分钟/中断=75 分钟=1.25 小时现在,我们计算总计费时间,其中包括原始持续时间加上开销。
总计费时间=原始持续时间+总开销=100 小时+1.25 小时=101.25 小时最后,我们得出使用竞价实例的总计算成本。
竞价计算成本=总计费时间×平均竞价 竞价计算成本=101.25 小时×$0.36/小时=$36.45尽管对于此任务而言这笔费用较小,但数据传出费用是总云成本的重要组成部分。我们来计算下载最终400 MB模型文件的成本。
首先,将兆字节(MB)转换为千兆字节(GB)。
400 MB=0.4 GB现在,计算传出成本。
传出成本=0.4 GB×$0.09/GB=$0.036对于单个模型来说,这笔成本可以忽略不计,但对于传输数TB数据的持续部署系统来说,这些费用可能会变得相当可观。为了进行比较,我们将此费用添加到每个总额中。
我们来将我们的结果汇总到下表中。
| 计费模型 | 计算成本 | 总成本(含传出费用) | 相比按需的节省 |
|---|---|---|---|
| 按需 | $120.00 | $120.04 | 0% |
| 预留实例 | $72.00 | $72.04 | ~40% |
| 竞价实例 | $36.45 | $36.49 | ~70% |
这项分析清楚地表明了财务上的权衡。
同一个100小时训练任务的总预计成本在不同云计费模型下差异很大。
这项实际操作表明了AI基础设施成本管理的一个基本原则。对于容错且非时间敏感的工作量,竞价实例能提供可观的节省。对于可预测的长期需求,预留实例在成本和可靠性之间提供了良好的平衡。按需实例作为一种有价值但昂贵的选项,适用于短期、紧急任务或在承诺长期计划之前的初步开发和基准测试。作为一名基础设施工程师,在启动主要工作量之前进行此类成本预估是一种必不可少的做法。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造