分类数据的难点

根据介绍，分类特征表示属于不同群组或标签的数据，例如颜色（红色、绿色、蓝色）或城市（伦敦、东京、纽约）。尽管这些非数值特征对人类来说信息量很大，并可能具有预测性，但当您尝试将它们直接输入到大多数机器学习 (machine learning)算法中时，它们会带来即时的问题。

根本问题在于，大多数机器学习模型，从线性回归、逻辑回归到支持向量 (vector)机和神经网络 (neural network)，都建立在数学根基之上。它们通过数值计算进行操作：测量数据点之间的距离、计算梯度、执行矩阵乘法以及优化涉及算术运算的目标函数。

思考以下主要难点：

数学运算未定义： 您如何对“红色”或“伦敦”等类别执行标准算术运算？您无法有意义地将“红色”+“蓝色”相加，也无法在回归方程中将“东京”乘以系数 $\beta$ （ $y = \beta_0 + \beta_1 \times \text{'东京'} + ...$ ），或者像计算数值点之间距离那样计算“绿色”和“红色”之间的欧几里得距离。需要数值输入的算法根本不知道如何直接处理这些字符串表示。
通常缺乏固有顺序： 数值数据通常包含大小或顺序信息。我们知道10大于5，并且10和5之间的差异与15和10之间的差异相同。大多数分类特征（名义特征）缺乏这种内在顺序。“红色”比“蓝色”大吗？“伦敦”是否比“纽约”更“接近”“东京”，以至于算法无需上下文 (context)就能普遍理解？随意分配数字（例如，红色=1，蓝色=2，绿色=3）可能会无意中强加一种虚假的顺序或大小感，从而误导算法。例如，分配这些数字意味着绿色在某种程度上比红色“多”，并且红色和蓝色之间的“距离”与蓝色和绿色之间的“距离”相同，这通常是不正确的。序数特征（如“低”、“中”、“高”）确实具有顺序，但即便如此，字符串表示也无法以算法可以使用的数值方式直接传达这一点。
算法兼容性： 基于距离的算法，如k-近邻（k-NN），在很大程度上依赖于计算特征空间中点之间的距离。这些计算在非数值数据上会失效。基于梯度的优化方法是训练线性模型和神经网络的核心，它们需要数值输入才能有效地计算梯度和更新模型参数 (parameter)。

该图说明了为什么分类特征在被大多数机器学习算法使用前需要进行编码。数值特征可以直接兼容，而分类特征需要转换。

因此，在您可以使用分类数据中包含的预测能力之前，您必须将其转换或编码为机器学习算法可以理解和处理的数值格式。本章会介绍执行这种必要转换的多种技术，解决这些问题并为您的数据建模做准备。我们将研究不同的策略，考量它们对不同类型分类数据的适用性以及对模型性能的影响。

这部分内容有帮助吗？

参考文献

The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, and Jerome Friedman, 2009 (Springer) DOI: 10.1007/978-0-387-84858-7 - 这本教材提供了许多机器学习算法的数学基础，间接解释了为什么需要数值特征输入以及为什么分类数据带来了挑战。这是一本经典参考书。
Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists, Alice Zheng and Amanda Casari, 2018 (O'Reilly Media) - 这本书直接探讨了特征工程的主题，包括对分类数据带来的挑战和各种编码技术的详细讨论。
Applied Predictive Modeling, Max Kuhn and Kjell Johnson, 2013 (Springer) DOI: 10.1007/978-1-4614-6849-3 - 该资源提供了为预测模型准备数据的实用指导，其中包含专门介绍分类预测器处理及其对模型性能影响的章节。
Python for Data Analysis, Wes McKinney, 2022 (O'Reilly Media) - 尽管更侧重于Python编程，这本书解释了数据类型和数据转换（包括分类数据）的必要性，作为机器学习的准备步骤。它为这些预处理步骤提供了实践背景。