所有课程

特征工程介绍

章节 1: 特征在机器学习中的作用

重温机器学习工作流程

什么是特征？

特征质量对模型表现的影响

常见数据类型及对应的问题

特征工程任务概览

第 1 章测验

章节 2: 处理缺失数据

识别缺失值

缺失数据机制 (MCAR, MAR, MNAR)

简单填充策略：均值、中位数、众数

创建缺失值指示器

多变量填充：KNN填充器

多元插补：迭代插补器

比较插补方法

动手实践：填充缺失数据

第 2 章测验

章节 3: 类别特征编码

分类数据的难点

标称类别与序数类别

标称特征的独热编码

有序特征的序数编码

高基数特征的处理

目标编码（均值编码）

二进制编码

哈希编码器

比较编码方法

动手实践：应用编码技术

第 3 章测验

章节 4: 特征缩放与变换

特征缩放的必要性

标准化 (Z-score 缩放)

归一化（最小-最大值缩放）

处理异常值的缩放

对偏斜数据的对数变换

Yeo-Johnson 变换

分位数变换

选择合适的缩放/转换方法

动手实践：特征缩放与转换

第 4 章测验

章节 5: 特征构建

创建新特征的动机

多项式特征

基于日期/时间数据的特征构建

数值特征分箱

领域特征工程

自动化特征生成（引言）

动手实践：构建新特征

第 5 章测验

章节 6: 特征选择

特征选择的重要性

过滤方法概述

过滤方法：方差阈值

过滤方法：单变量统计检验（ANOVA F值，卡方）

过滤方法：相关性分析

封装器方法概述

封装方法：递归特征消除 (RFE)

封装方法：序列特征选择 (SFS)

嵌入式方法概览

嵌入式方法：正则化（Lasso L1）

嵌入式方法：基于树的特征重要性

动手实践：特征选择

第 6 章测验

特征质量对模型表现的影响

这部分内容有帮助吗？

参考文献

Feature Engineering and Selection: A Practical Approach for Predictive Models, Max Kuhn, Kjell Johnson, 2019 (Chapman and Hall/CRC) DOI: 10.1201/9781315108230 - 这本全面的书籍系统地介绍了特征的创建和选择，直接阐述了它们对模型准确性、可解释性和效率的影响。(第二版)
Machine Learning Yearning, Andrew Ng, 2017 (DeepLearning.AI) - 这本策略指南强调数据质量和特征工程对于提升AI应用中的模型性能和泛化能力非常重要。
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems, Aurélien Géron, 2022 (O'Reilly Media) - 一本广泛使用的实用教材，其中有专门的章节介绍数据预处理和特征工程，展示了它们在实现良好模型性能和泛化能力方面的作用。
A Survey on Feature Engineering Methods for Machine Learning, Navneet Singh, Jagdeep Singh Sohal Punia and Monika Partap Singh Bhatia, 2020 International Journal of Advanced Computer Science and Applications, Vol. 11 (Science and Information Organization) DOI: 10.14569/IJACSA.2020.110231 - 这篇综述文章概述了各种特征工程技术，并从讨论特征质量对模型有效性的重要性开始。

© 2025 ApX Machine Learning用心打造