趋近智
有效的数据科学工作始于获取和准备数据。本章侧重于收集不同来源的数据,并将其整理为可用于分析的格式所需的实用步骤。
您将学习访问存储在 SQL 数据库和数据仓库中的数据、从网络 API 获取信息以及使用网络爬虫方法从网站中提取结构化内容的技术。我们还将介绍高级的数据清洗策略、处理不限于简单填充的缺失值、应用必要的转换(例如缩放 和归一化 (normalization)),以及通过合并和连接操作将来自多个来源的数据汇集起来。本章结束时,您将已练习运用这些方法来准备数据集,为后续的特征工程和模型构建阶段做好准备。
1.1 连接数据库和数据仓库
1.2 使用Web API获取数据
1.3 网页抓取结构化数据的技巧
1.4 高级数据清洗方法
1.5 处理缺失值的策略
1.6 数据转换与标准化方法
1.7 合并与连接不同数据集
1.8 动手实践:数据获取与规整