趋近智
你已经学习了如何定义问题和获取数据。但接下来会发生什么?数据在获取后就处于完全可用状态的情况非常少见,几乎闻所未闻。可以将其比作从市场购买原始食材。你不会立即将所有东西都扔进锅里。你需要洗菜,可能还要去皮、切块、量好分量。数据准备,通常被称为数据清理或数据整理,就是数据科学中的同等步骤。
原始数据常带有各种问题,这些问题会显著影响在其基础上进行的任何分析或模型的质量和可靠性。如果你向分析中输入杂乱、不完整或不正确的数据,你将得到不可靠、误导性的结果。这常被概括为“垃圾进,垃圾出”。数据准备是将原始数据转换为干净、一致、适合数据分析和模型构建形式的重要过程。
"数据经常是杂乱的。以下是你将遇到的一些常见问题:"
NaN、null或只是空白)。许多分析技术和机器学习算法无法直接处理缺失值。01/05/2023、Jan 5, 2023、2023-01-05),或者分类数据可能需要编码。数据准备不是一个单一的步骤,而是一系列旨在解决上述问题的活动。具体的步骤在很大程度上取决于数据和项目目标,但它们通常包括:
据报告,此阶段常占据数据科学家很大一部分时间,有时高达项目持续时间的80%。虽然这可能看起来很繁琐,但它是一个根本重要的步骤。没有仔细的数据准备,后续分析中得出的见解或模型做出的预测可能有缺陷或完全错误。
数据准备是实现可靠数据分析的必要步骤。它确保输入到下一阶段——初步数据分析(EDA)和模型构建——的数据是可靠的,并能产生有意义的结果。用于收集和准备数据的实用技术会得到更仔细的查看。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造