趋近智
当我们构建机器学习模型时,输入数据的质量至关重要。更具体地说,从原始数据中提取的特征在模型学习和做出准确预测的能力方面扮演着重要角色。如您所知,自编码器特别擅长从数据中学习有意义的表示,即特征。但这种自动化方法与传统的特征构建方式相比如何呢?让我们看一下两种主要思路:人工特征工程和学习特征方法。
多年来,为机器学习模型准备数据的标准方式涉及人工特征工程。这个过程高度依赖于人类专业知识和领域知识。想象一下您正在尝试预测房价。一位领域专家,例如房地产经纪人或经济学家,会手动构建他们认为有影响的特征。
它包含什么? 人工特征工程是一个复杂过程,数据科学家或领域专家会执行以下步骤:
平方英尺、卧室数量或房屋年龄等特征是显而易见的起点。更复杂的特征可能包括社区犯罪率或到最近学校的距离。对于图像数据,专家可能会判断边缘或特定纹理的存在很重要。人工特征的例子:
优点:
卧室数量的模型在预测房价时高度依赖此特征,那么很容易理解原因。缺点:
与手动方法相反,学习特征方法将特征创建的责任从人类转移到机器学习模型本身。自编码器,正如我们正在发现的,是这方面的一个典型例子。
自编码器如何学习特征? 回顾自编码器的架构:一个编码器、一个瓶颈层和一个解码器。
其奥妙在于自编码器经过训练以最小化重建误差(原始输入和重建输出之间的差异)。为了做到这一点,尤其是在瓶颈层远小于输入时,编码器必须学习保留数据中最重要的、最显著的信息,并将其存入紧凑的瓶颈表示中。这些凝练、信息丰富的瓶颈表示,本质上就是学习特征。网络自动找出数据中哪些属性值得保留以实现良好的重建。
优点:
缺点:
下图说明了人工特征工程与使用自编码器学习特征方法之间工作流程的根本差异。
此图对比了由人类专业知识驱动的手动过程,与自编码器在其瓶颈层中学习特征的自动化过程。这些学习到的特征随后可用于重建或其他机器学习任务。
为了使区别更清晰,这里提供一个并排比较:
| 方面 | 人工特征工程 | 学习特征方法(例如,自编码器) |
|---|---|---|
| 创建过程 | 人类驱动,依赖领域知识和直觉。 | 数据驱动,模型在训练期间自动学习特征。 |
| 时间与精力 | 设计和迭代可能非常耗时。 | 人工特征设计工作较少;训练可能耗时。 |
| 所需专业知识 | 高领域专业知识,特征工程技能。 | 机器学习模型构建、数据处理和超参数调优技能。 |
| 可解释性 | 特征通常可以直接解释。 | 学习到的特征可能抽象且难以解释。 |
| 模式发现 | 受限于人类感知或定义模式的能力。 | 能够发现复杂、不显眼、不明显的模式。 |
| 对新数据的可扩展性 | 可能需要为不同数据集重新设计特征。 | 模型通常可以重新训练或适应新数据。 |
| 数据要求 | 有时可以有效地处理较小的数据集。 | 通常需要更大的数据集才能实现最佳特征学习。 |
| 客观性 | 可能受人类偏见或假设影响。 | 特征基于数据模式学习,可能更客观。 |
两种方法都不是普遍更优的。选择通常取决于具体问题、可用数据的数量和类型、可解释性的重要性以及现有资源。
人工特征工程仍然可以非常有效,尤其是在以下情况:
学习特征(如自编码器产生的特征)特别有优势,尤其是在以下情况:
在实践中,您甚至可能会看到混合方法。例如,一些基本的人工构建特征可以输入到神经网络中,然后神经网络在此基础上学习更抽象的表示。
理解人工和学习的特征方法使您在解决机器学习问题时能够做出更明智的决策。随着我们课程的深入,我们将更多地侧重于自编码器如何特别擅长自动学习这些有用的表示,这为降维和异常检测等任务奠定了基础。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造