趋近智
高效的数据处理对于训练机器学习模型很重要,尤其是在处理大型数据集时,I/O可能成为主要的瓶颈。TensorFlow 的 tf.data API 提供了一种强大而灵活的方式,用于构建高性能的输入管道,将数据提取和转换与模型训练分离。
在本章中,你将学会高效地使用 tf.data API。我们将学习以下内容:
tf.data.Dataset 对象,包括内存中的数组(NumPy, Tensors)、Python 生成器,以及 TFRecord 等优化过的文件格式。map() 进行元素级预处理、batch() 进行数据分组、shuffle() 进行随机化以及 prefetch() 进行性能优化等方法,应用常见的数据转换。tf.data 管道方便地与 Keras model.fit() API 集成,用于训练和评估。完成本章后,你将能够为你的 TensorFlow 模型构建可扩展且高效的数据加载机制。
5.1 为什么选择 tf.data?
5.2 从张量、NumPy 和生成器创建数据集
5.3 使用 TFRecord 文件
5.4 应用转换:map()
5.5 批处理与混洗
5.6 为提高性能而预取
5.7 将 tf.data 与 model.fit() 结合使用
5.8 使用 tf.data 进行图像数据增强
5.9 动手实践:构建图像数据管道
© 2026 ApX Machine Learning用心打造