趋近智
在上一章中,我们看到向量 (vector)如何作为基本构成要素,常在机器学习 (machine learning)中代表单个数据点或一次观测的一组特征。例如,一个向量可以包含一张图像的像素值,一篇文档的词频,或一套房屋的特征(如面积、卧室数量)。
"然而,机器学习任务几乎总是处理多个数据点,而不仅仅是一个。我们需要一种有效的方法来组织和处理这些集合。这就是矩阵的作用。"
矩阵是由数字组成的矩形网格,按行和列排列。如果一个矩阵有 行和 列,其维度就是 。矩阵是表示多个数据点的有力工具,并且可以看作是向量的扩展形式。向量本身就是一个只有一列(列向量)或一行的矩阵(行向量)。
在机器学习 (machine learning)中,矩阵最常见的应用是表示整个数据集。想象一个存储在表格中的典型数据集,例如电子表格或CSV文件:
| 面积 (平方英尺) | 卧室数 | 价格 (千美元) |
|---|---|---|
| 1500 | 3 | 300 |
| 1200 | 2 | 250 |
| 1800 | 4 | 380 |
| 1350 | 3 | 290 |
我们可以直接将这种表格数据转换为矩阵。通常,矩阵的每一行对应一个样本或数据点(如一套房屋),每一列对应一个特定的特征或属性(如面积、卧室数量或价格)。
对于上述房屋数据,如果我们将“面积”和“卧室数”作为输入特征 () 来预测“价格” (),我们可以将这些特征表示为一个矩阵:
这个矩阵 的维度是 ,因为它有4个样本(房屋)和2个特征。每一行,例如 ,都是一个样本的特征向量 (vector)。目标变量“价格”通常会作为单独的向量存储:
这个矩阵 通常被称为特征矩阵或设计矩阵。它是许多机器学习算法中使用的标准结构。
该图示说明了数据集表格(其中行是样本,列是特征)如何通常被表示为特征矩阵 。矩阵中的每一行都是单个样本的特征向量。
矩阵不限于简单的表格数据。考虑机器学习 (machine learning)中常见的其他数据类型:
将数据组织成矩阵提供了几个重要优势:
ndarrays或N维数组)。使用NumPy对整个矩阵执行操作比在Python中循环处理单个数据点要快得多。这种“向量 (vector)化”对于机器学习 (machine learning)的性能非常重要。通过将数据点集合表示为矩阵中的行(或有时是列),我们创建了一种理想的结构化形式,便于数学操作和计算处理,为我们接下来将介绍的线性变换和方程组求解提供了方法。我们将大量依赖NumPy在Python中创建和使用这些矩阵表示。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造