趋近智
探索性数据分析(EDA)不仅关乎理解现有数据;它也关乎为接下来的步骤,通常是机器学习 (machine learning)建模,准备数据。查看数据分布、可视化数据关联以及识别数据质量问题提供的信息,直接指导数据集的优化。这个旨在改善预测模型输入信号的优化过程,被称为特征工程。
可以将特征工程视为一门艺术和科学,它将原始数据转换成能够更好地向预测模型呈现其核心问题的特征,从而提高模型的准确性和表现。它是连接EDA期间所形成的理解与机器学习算法需求之间的桥梁。
机器学习 (machine learning)算法从它们获得的数据中学习模式。这些输入数据的质量和形式显著影响它们有效学习的能力。原始数据,即使经过清洗,可能也并非最佳格式。以下是特征工程成为数据科学标准工作流程一部分的原因:
days_since_last_purchase(上次购买以来的天数)这样的特征,运用你对客户行为的理解。你的EDA工作直接提供了潜在的特征工程步骤:
day_of_week(星期几)、month(月份)、is_weekend(是否周末)或时间差等特征。文本数据可能需要专门的特征提取技术(如TF-IDF或词嵌入 (embedding)),这通常由EDA期间的初步文本分析引导。本质上,EDA突显你数据中的特点和潜在问题,而特征工程提供解决这些问题的方法,调整数据集以进行有效建模。以下部分将介绍具体的技术,例如从现有特征创建新特征、数值数据缩放以及分类变量编码,所有这些都依据此处讨论的原理。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•