趋近智
许多数据集包含类别特征,表示产品类型、地理位置或用户群等信息。这些特征通常包含有价值的预测信息,但大多数机器学习 (machine learning)算法需要数值输入。本章侧重于解决这一问题,介绍将类别数据转换为合适数值表示的方法。
你将学会:
我们将使用 Pandas 和 Scikit-learn 等 Python 库应用这些技术,为你的类别数据在机器学习模型中的有效使用做好准备。
3.1 分类数据的难点
3.2 标称类别与序数类别
3.3 标称特征的独热编码
3.4 有序特征的序数编码
3.5 高基数特征的处理
3.6 目标编码(均值编码)
3.7 二进制编码
3.8 哈希编码器
3.9 比较编码方法
3.10 动手实践:应用编码技术