趋近智
你明白我们为什么需要将数据划分为训练集和测试集。训练集用于模型学习,而测试集则保留下来,用以观察模型在未见过的数据上的表现。这有助于我们评估模型在新、真实场景中的泛化能力。
但是,训练集和测试集应该包含多少数据呢?没有一个适用于所有情况的万能数字,但有一些常见的惯例和指导原则可以提供一个好的起点。选择通常涉及权衡:
让我们看看最常用的划分比例:
这也许是最常见的起点。80%的数据用于训练模型,剩余的20%保留用于测试。
另一个广泛使用的比例是将70%的数据用于训练,30%用于测试。
随着超大型数据集的出现(例如数百万或数十亿个样本),有时即使是10%的数据也足以为测试集提供可靠数据。
数据划分比例图示。蓝色部分表示用于训练模型的数据,橙色部分表示留作测试的数据。
数据集中的总样本数量会很大程度上影响合适的划分比例:
无论比例如何,主要目标是训练集和测试集都能对整体数据分布具有代表性。你希望完整数据集中存在的模式、变化和潜在挑战能在两个子集中得到体现。这就是为什么简单地取前80%的数据通常不是一个好主意,特别是如果数据具有某种固有顺序(如时间)。划分前随机打乱,这是我们接下来会讨论的,通常很必要。
选择划分比例是一个实际决定。以80/20或70/30作为起点通常是合理的。在做出最终选择时,请考虑你的数据集大小以及你需要对测试结果有多大把握。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造