趋近智
在讨论自编码器如何从数据中学习新表示之前,有必要先弄清数据集中“特征”的含义。可以把特征看作你正在处理的数据的单个、可衡量的属性或特点。它们是描述每条信息的基本构成,机器学习模型利用这些特征进行预测或找出规律。
理解特征最直接的方式或许是查看结构化数据,这类数据常以表格形式组织,比如电子表格。在这样的表格中:
例如,如果你有一个关于顾客的数据集,特征可能包含:
年龄 (例如:34岁)年收入 (例如:50,000美元)居住城市 (例如:“纽约”)是否已订阅 (例如:真/假)这些列中的每一列都提供了关于每位顾客的一条独特信息(一个特征)。机器学习模型可以利用这些特征,例如预测新顾客是否可能订阅某项服务。
请看以下一个数据集的简单表示:
在这个房屋数据集示例中,“建筑面积”、“卧室数量”和“到市中心的距离”是描述每栋房屋的特征。“价格”可能是我们希望预测的目标。
特征不限于表格中整齐的列。
共同点在于,特征是从原始数据中提取的数值或分类输入,机器学习算法利用它们来执行任务。
特征的选择和质量是任何机器学习项目成功的前提。
简而言之,特征是机器学习模型看待数据的视角。
在本章后续内容中,我们将看到自编码器不仅使用预设特征;它们的优势在于能够从初始的原始输入特征中学习新的、通常更紧凑和更有信息量的特征。自编码器中的瓶颈层(我们之前讨论过)正是这些学习到的特征所在之处。对“特征”基本含义的清晰认识为理解自编码器如何转换它们奠定了基底。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造