趋近智
虽然向量 (vector)非常适合表示带有多个特征的单个数据点,但机器学习 (machine learning)模型很少只用一个例子进行训练。我们需要一种方法来整理整个数据点集合,为此我们选用矩阵。
矩阵是由行和列组成的数字矩形网格。你可以把它看作向量的一种扩展。如果向量是一个数字列表,那么矩阵就是将多个列表堆叠在一起。这种结构对于机器学习中表示数据集必不可少。
假设我们要建立一个预测房价的模型。我们收集了几栋房屋的数据。每栋房屋都是一个样本,对于每个样本,我们记录了几个特征,例如它的面积、卧室数量和房龄。我们可以用一个特征向量 (vector)来表示每栋房屋:
[1500, 3, 10] (1500 平方英尺, 3 卧室, 10 年房龄)[2100, 4, 5] (2100 平方英尺, 4 卧室, 5 年房龄)[1200, 2, 20] (1200 平方英尺, 2 卧室, 20 年房龄)为了整理这个完整的数据集,我们可以将这些行向量堆叠在一起,形成一个矩阵。
整理成矩阵的数据集。每一行对应一个数据样本(一栋房屋),每一列对应一个特定的特征。
在这个矩阵中:
矩阵的维度或形状由其行数和列数给出。我们将其描述为“”矩阵,其中 是行数, 是列数。例如,表示房屋数据的矩阵可能是一个 矩阵。
在线性代数中,我们通常用大写字母表示矩阵,例如 。要指代矩阵中的特定元素,我们使用下标。矩阵 中第 行第 列的元素表示为 或 。请记住约定:先行后列。
对于我们的房屋数据矩阵 :
这种每行一个样本、每列一个特征的排列方式是机器学习中的标准约定。这个数据矩阵通常称为特征矩阵,并常用变量 表示。
我们想要预测的值,例如每栋房屋的价格,通常存储在一个单独的列向量 (vector)中。这通常称为目标向量,并用变量 表示。
对于我们的例子,特征矩阵 就是我们已经看到的矩阵,而目标向量 可能包含相应的价格:
这种特征 () 和目标 () 的结构化表示是几乎所有监督机器学习算法的输入。通过将数据整理成矩阵和向量,我们可以运用线性代数的强大运算来分析关联并建立预测模型。接下来,我们将准备好环境,使用 Python 创建和操作这些对象。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•