机器学习模型通常处理大量数据集并执行复杂的计算。这些操作的效率很大程度上取决于所使用的底层数据结构和算法。为数据存储选择合适的数据结构,或为特定任务选择正确的算法,能极大地影响训练时间、内存占用和模型可伸缩性。本章将为理解这种联系打下铺垫。我们将从回顾使用大O表示法(例如,$O(n)$, $O(n^2)$)的计算复杂度分析开始,这是一种评估性能权衡的重要工具。接着,我们将考察列表和字典等标准Python数据结构在常见的机器学习工作流中是如何被使用并表现的。我们会特别关注NumPy数组和Pandas数据帧,它们是Python机器学习生态系统中进行数值计算和数据准备的重要组成部分。您将了解它们在高效处理大量数值数据集方面的特定优势。最后,我们将开始培养将机器学习问题与合适的数据结构进行匹配所需的直觉。我们将通过实际例子强化这些内容,包括对基本数据操作进行性能分析,以直观感受性能差异。