The Google File System, Sanjay Ghemawat, Howard Gobioff, Shun-Tak Leung, 2003Proceedings of the nineteenth ACM symposium on Operating systems principlesDOI: 10.1145/945445.945451 - 描述了Google文件系统的设计和实现,该系统是一种基础的分布式文件系统架构,影响了HDFS等许多现代PB级存储解决方案。
WebDataset: A High-Performance I/O Format for Large-scale Deep Learning, Kyle K. Kayastha, Brant C. Faircloth, Andreas K. Foerster, Benjamin S. Glick, Brian K. Stewart, Jan Schlüter, 2021arXiv preprint arXiv:2106.01429 - 详细介绍了WebDataset,这是一种高效的数据格式和加载库,旨在直接从对象存储流式传输大规模深度学习数据集,解决了优化文件格式和数据流的问题。