所有课程

特征工程介绍

章节 1: 特征在机器学习中的作用

重温机器学习工作流程

什么是特征？

特征质量对模型表现的影响

常见数据类型及对应的问题

特征工程任务概览

第 1 章测验

章节 2: 处理缺失数据

识别缺失值

缺失数据机制 (MCAR, MAR, MNAR)

简单填充策略：均值、中位数、众数

创建缺失值指示器

多变量填充：KNN填充器

多元插补：迭代插补器

比较插补方法

动手实践：填充缺失数据

第 2 章测验

章节 3: 类别特征编码

分类数据的难点

标称类别与序数类别

标称特征的独热编码

有序特征的序数编码

高基数特征的处理

目标编码（均值编码）

二进制编码

哈希编码器

比较编码方法

动手实践：应用编码技术

第 3 章测验

章节 4: 特征缩放与变换

特征缩放的必要性

标准化 (Z-score 缩放)

归一化（最小-最大值缩放）

处理异常值的缩放

对偏斜数据的对数变换

Yeo-Johnson 变换

分位数变换

选择合适的缩放/转换方法

动手实践：特征缩放与转换

第 4 章测验

章节 5: 特征构建

创建新特征的动机

多项式特征

基于日期/时间数据的特征构建

数值特征分箱

领域特征工程

自动化特征生成（引言）

动手实践：构建新特征

第 5 章测验

章节 6: 特征选择

特征选择的重要性

过滤方法概述

过滤方法：方差阈值

过滤方法：单变量统计检验（ANOVA F值，卡方）

过滤方法：相关性分析

封装器方法概述

封装方法：递归特征消除 (RFE)

封装方法：序列特征选择 (SFS)

嵌入式方法概览

嵌入式方法：正则化（Lasso L1）

嵌入式方法：基于树的特征重要性

动手实践：特征选择

第 6 章测验

嵌入式方法概览

这部分内容有帮助吗？

参考文献

Regression Shrinkage and Selection Via the Lasso, Robert Tibshirani, 1996 Journal of the Royal Statistical Society. Series B (Methodological), Vol. 58 (Royal Statistical Society) DOI: 10.1111/j.2517-6161.1996.tb02080.x - 介绍Lasso的原始论文，这是一种基础的正则化技术，广泛应用于嵌入式特征选择。
The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, and Jerome Friedman, 2009 (Springer) - 权威教材，包含正则化方法（包括Lasso）和基于树模型的详细章节，为嵌入式特征选择提供了统计学背景。
Feature importance with ensembles, The scikit-learn developers, 2024 (scikit-learn project) - scikit-learn官方文档，展示了随机森林等集成方法如何计算和使用特征重要性进行选择，这是一种常见的嵌入式技术。
A survey on feature selection methods, Jian Cai, Jiuyong Luo, Shuxin Wang, and Siheng Meng, 2018 Journal of Computer Science and Technology, Vol. 33 (Springer Science and Business Media LLC) DOI: 10.1007/s11390-018-1807-7 - 一篇近期综述论文，全面概述了特征选择技术，包括对嵌入式方法的讨论及其在机器学习中的作用。

© 2025 ApX Machine Learning用心打造