有效的数据科学工作始于获取和准备数据。本章侧重于收集不同来源的数据,并将其整理为可用于分析的格式所需的实用步骤。您将学习访问存储在 SQL 数据库和数据仓库中的数据、从网络 API 获取信息以及使用网络爬虫方法从网站中提取结构化内容的技术。我们还将介绍高级的数据清洗策略、处理不限于简单填充的缺失值、应用必要的转换(例如缩放 $x_{scaled} = (x - \min(x)) / (\max(x) - \min(x))$ 和归一化),以及通过合并和连接操作将来自多个来源的数据汇集起来。本章结束时,您将已练习运用这些方法来准备数据集,为后续的特征工程和模型构建阶段做好准备。