所有课程

应用数据科学：方法与实践

章节 1: 高级数据获取与准备

连接数据库和数据仓库

使用Web API获取数据

网页抓取结构化数据的技巧

高级数据清洗方法

处理缺失值的策略

数据转换与标准化方法

合并与连接不同数据集

动手实践：数据获取与规整

第 1 章测验

章节 2: 实用特征工程

从数值数据生成特征

高效编码类别变量

从文本数据生成特征

交互项与多项式特征

使用统计方法选择特征

实践：特征创建与选择

第 2 章测验

章节 3: 构建与调整预测模型

常用监督学习算法回顾

实施线性回归与逻辑回归

应用基于树的模型

梯度提升机介绍

使用网格搜索和随机搜索进行超参数调优

模型准确度评估

交叉验证策略

动手实践：模型训练与超参数优化

第 3 章测验

章节 4: 应用无监督学习

理解聚类方法要点

实现K-Means聚类

应用 DBSCAN 进行基于密度的聚类

异常检测方法简介

用于可视化的降维

动手实践：聚类与异常检测练习

第 4 章测验

章节 5: 模型部署要点

保存和加载训练好的模型

模型服务框架简介

构建模型预测的REST API

使用 Docker 容器化应用

模型监控基本要点

实践：创建模型API并将其容器化

第 5 章测验

异常检测方法简介

这部分内容有帮助吗？

参考文献

Outlier Analysis, Charu C. Aggarwal, 2017 (Springer) DOI: 10.1007/978-3-319-47578-3 - 本书对异常检测技术进行了全面概述，涵盖了各种方法和应用。
Isolation forest, Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou, 2008 2008 Eighth IEEE International Conference on Data Mining (IEEE) DOI: 10.1109/ICDM.2008.17 - 介绍Isolation Forest算法的原始研究论文，这是一种用于异常检测的机器学习方法。
Estimating the support of a high-dimensional distribution, Bernhard Schölkopf, John C. Platt, John Shawe-Taylor, Alex J. Smola, Robert C. Williamson, 2001 Neural computation, Vol. 13 (MIT Press) DOI: 10.1162/089976601750264965 - 一篇基础论文，描述了单类支持向量机，一种适用于异常检测的机器学习技术。
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, Aurélien Géron, 2019 (O'Reilly Media) - 一本实用指南，包含使用常用Python库实现各种机器学习算法（包括异常检测方法）的详细信息。

© 2025 ApX Machine Learning用心打造