你已经学习了数据如何收集和存储。现在,我们着重让这些数据变得有用。本章介绍数据收集后进行处理的基本方法。你将学习到:批处理(在预定时间处理大量数据)和流处理(处理近实时数据)之间的区别。处理框架及其所需的计算资源的概述。提升数据质量的数据清洗和数据验证基本技术。学完本章,你将明白将原始数据转换为适合分析和其他应用的形式的主要方法。我们还将通过一个简单的数据清洗练习来运用这些知识。