所有课程

特征工程介绍

章节 1: 特征在机器学习中的作用

重温机器学习工作流程

什么是特征？

特征质量对模型表现的影响

常见数据类型及对应的问题

特征工程任务概览

第 1 章测验

章节 2: 处理缺失数据

识别缺失值

缺失数据机制 (MCAR, MAR, MNAR)

简单填充策略：均值、中位数、众数

创建缺失值指示器

多变量填充：KNN填充器

多元插补：迭代插补器

比较插补方法

动手实践：填充缺失数据

第 2 章测验

章节 3: 类别特征编码

分类数据的难点

标称类别与序数类别

标称特征的独热编码

有序特征的序数编码

高基数特征的处理

目标编码（均值编码）

二进制编码

哈希编码器

比较编码方法

动手实践：应用编码技术

第 3 章测验

章节 4: 特征缩放与变换

特征缩放的必要性

标准化 (Z-score 缩放)

归一化（最小-最大值缩放）

处理异常值的缩放

对偏斜数据的对数变换

Yeo-Johnson 变换

分位数变换

选择合适的缩放/转换方法

动手实践：特征缩放与转换

第 4 章测验

章节 5: 特征构建

创建新特征的动机

多项式特征

基于日期/时间数据的特征构建

数值特征分箱

领域特征工程

自动化特征生成（引言）

动手实践：构建新特征

第 5 章测验

章节 6: 特征选择

特征选择的重要性

过滤方法概述

过滤方法：方差阈值

过滤方法：单变量统计检验（ANOVA F值，卡方）

过滤方法：相关性分析

封装器方法概述

封装方法：递归特征消除 (RFE)

封装方法：序列特征选择 (SFS)

嵌入式方法概览

嵌入式方法：正则化（Lasso L1）

嵌入式方法：基于树的特征重要性

动手实践：特征选择

第 6 章测验

多变量填充：KNN填充器

这部分内容有帮助吗？

参考文献

sklearn.impute.KNNImputer, scikit-learn developers, 2023 - scikit-learn中KNNImputer类的官方文档，提供了详细的用法、参数和示例。
Missing value estimation methods for DNA microarray gene expression data, Olga Troyanskaya, Michael Cantor, Gavin Sherlock, Pat Brown, Trevor Hastie, Robert Tibshirani, David Botstein, Russ B. Altman, 2001 Bioinformatics, Vol. 17 (Oxford University Press) DOI: 10.1093/bioinformatics/17.6.520 - 一篇经典论文，介绍了基于KNN的缺失数据估算方法，并在高维生物数据集中对其有效性进行了评估。
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, Aurélien Géron, 2019 (O'Reilly Media) - 一本广泛使用的实用指南，涵盖了数据预处理技术，包括KNN Imputer等多种插补方法，并提供了Scikit-learn的实际示例。
Applied Predictive Modeling, Max Kuhn, Kjell Johnson, 2013 (Springer) DOI: 10.1007/978-1-4614-6849-3 - 一本涵盖数据预处理、特征工程和预测建模的教科书，讨论了各种插补策略及其注意事项。

© 2025 ApX Machine Learning用心打造