趋近智
正如我们所知,特征是作为机器学习模型输入的可测量属性或特性。然而,原始数据很少以可以直接供模型使用的整洁格式出现。它有多种类型,每种类型都具有独特的特点和自身的问题,需要特定的特征工程方法。在有效清洗、转换或生成特征之前,理解这些数据类型是基本的一步。
我们将研究您将遇到的最常见数据类型以及它们通常带来的难题。
数值型数据表示数量,可以被测量。它通常是许多算法最直接的数据类型,但仍需要仔细处理。
连续型数据: 可以在给定范围内取任意值。例如身高、体重、温度或价格等测量值。
收入是数十万,而工作年限是个位数)。对距离或量级敏感的算法,如K近邻(KNN)或支持向量机(SVM),以及梯度下降等优化过程,会受到取值范围较大的特征的严重影响。这需要缩放技术(第4章)。离散型数据: 只能取特定的、独立数值,通常是计数。例如房屋的卧室数量、客户支持电话的计数或网站点击次数。
类别型数据表示定性属性或标签,将数据分组为不同的类别。模型需要数值输入,因此这些非数值类型需要转换。
名义型数据: 没有内在顺序或排名的类别。例如国家名称、颜色、产品类型或性别。
邮政编码或用户ID,在编码后(例如,使用独热编码)可能导致维度极高的数据,可能引起性能问题或过拟合。目标编码、二进制编码或哈希编码等技术(第3章)提供了替代方案。序数型数据: 具有有意义的顺序或排名的类别,但类别之间差异的大小不一定定义或一致。例如教育水平(“高中”、“学士”、“硕士”、“博士”)、客户满意度评级(“差”、“一般”、“好”、“优秀”)或尺寸标签(“S”、“M”、“L”、“XL”)。
文本数据由单词或字符序列组成,如客户评论、电子邮件、文章或社交媒体帖子。它本质上是非结构化的。
时间数据包含时间戳、日期或持续时间。它通常包含有价值的周期性模式和趋势。
星期几、月份、一天中的小时可以高度预测。上次购买以来的时间或账户时长等特征可能很有用。虽然在侧重表格数据的入门语境中不那么常见,您可能还会遇到:
分辨您正在处理的数据类型是重要的第一步。每种类型都需要特定的考虑和技术,这些构成了我们将在本课程中学习的特征工程过程的主体。接下来的章节将为您提供处理缺失值、类别编码、数值缩放以及从原始数据中生成有用新特征的方法。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造