趋近智
正如本章引言所述,特征工程在机器学习 (machine learning)工作流程中占据重要位置。但在此背景下,特征究竟是什么呢?
核心而言,特征是被观测现象的一个可衡量的个体属性或特点。可以将其视为机器学习模型用于做出预测或判断的输入变量。在机器学习常用的结构化数据集(如表格或电子表格)中,特征通常对应于列。
考虑一个简单例子:预测房价。您收集的原始数据可能包含每套房屋的各种信息。部分原始数据可能可以直接用作特征,而另一些特征可能需要创建或转换。
year_built数据中创建这个age特征。同样,拥有地块大小和房屋面积,可能让您能够创建yard_size特征(地块大小 - 房屋面积)或house_ratio特征(房屋面积 / 地块大小)。主要观点是,特征是为学习算法量身定制的原始数据的信息丰富的表示。原始数据通常杂乱,包含不相关信息,或者格式不适合算法(例如,文本地址、原始时间戳)。特征是经过提炼的、从这些原始数据中派生出来的数值或分类输入。
下面是一个说明其区别的小表格:
| 原始数据点 | 可派生的潜在特征 | 特征类型 |
|---|---|---|
交易时间戳 |
一天中的小时, 一周中的天, 是否周末 (二元) |
数值型, 数值型, 分类型 |
客户地址 |
邮政编码, 到商店的距离 (英里) |
分类型, 数值型 |
产品描述 (文本) |
关键词数量, 情感分数 |
数值型, 数值型 |
销售价格, 成本价格 |
利润率 () |
数值型 |
卧室数量 |
卧室数量 |
数值型 |
颜色 (例如, "红色", "蓝色") |
颜色编码 (例如, 使用编码的0, 1) |
分类型/数值型 |
原始数据点转换为潜在机器学习特征的示例。
特征工程的目标,也是我们将在本课程中会详细介绍的,是从可用数据中构建最有效的特征集。这包括选择相关信息、将其转换为合适的格式(如将分类数据转换为数字)、处理缺失值,有时还会创建全新的特征,以比单独使用原始数据更有效地捕捉潜在模式。这些特征的质量通常比模型算法本身的选择对模型性能更为重要。理解什么是好的特征,是此过程的第一步。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•