所有课程

特征工程介绍

章节 1: 特征在机器学习中的作用

重温机器学习工作流程

什么是特征？

特征质量对模型表现的影响

常见数据类型及对应的问题

特征工程任务概览

第 1 章测验

章节 2: 处理缺失数据

识别缺失值

缺失数据机制 (MCAR, MAR, MNAR)

简单填充策略：均值、中位数、众数

创建缺失值指示器

多变量填充：KNN填充器

多元插补：迭代插补器

比较插补方法

动手实践：填充缺失数据

第 2 章测验

章节 3: 类别特征编码

分类数据的难点

标称类别与序数类别

标称特征的独热编码

有序特征的序数编码

高基数特征的处理

目标编码（均值编码）

二进制编码

哈希编码器

比较编码方法

动手实践：应用编码技术

第 3 章测验

章节 4: 特征缩放与变换

特征缩放的必要性

标准化 (Z-score 缩放)

归一化（最小-最大值缩放）

处理异常值的缩放

对偏斜数据的对数变换

Yeo-Johnson 变换

分位数变换

选择合适的缩放/转换方法

动手实践：特征缩放与转换

第 4 章测验

章节 5: 特征构建

创建新特征的动机

多项式特征

基于日期/时间数据的特征构建

数值特征分箱

领域特征工程

自动化特征生成（引言）

动手实践：构建新特征

第 5 章测验

章节 6: 特征选择

特征选择的重要性

过滤方法概述

过滤方法：方差阈值

过滤方法：单变量统计检验（ANOVA F值，卡方）

过滤方法：相关性分析

封装器方法概述

封装方法：递归特征消除 (RFE)

封装方法：序列特征选择 (SFS)

嵌入式方法概览

嵌入式方法：正则化（Lasso L1）

嵌入式方法：基于树的特征重要性

动手实践：特征选择

第 6 章测验

哈希编码器

这部分内容有帮助吗？

参考文献

Feature Hashing for Large Scale Multitask Learning, Kilian Weinberger, Anirban Dasgupta, John Langford, Alex Smola, Josh Attenberg, 2009 Proceedings of the 26th International Conference on Machine Learning (ICML) DOI: 10.1145/1553374.1553428 - 一篇基础论文，介绍了在大规模机器学习中用于降维的“哈希技巧”概念。
HashingEncoder, category_encoders Developers, 2023 - 哈希编码器实现的官方文档，提供了在Python生态系统中的实践细节、参数和使用示例。
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, Aurélien Géron, 2019 (O'Reilly Media) - 一本涵盖各种机器学习概念的实践指南，包括特征工程技术（如分类编码），适合实际应用。
Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists, Alice Zheng, Amanda Casari, 2018 (O'Reilly Media) - 一本专注于特征工程的综合书籍，详细讨论了处理分类变量（包括哈希）的技术及其影响。

© 2025 ApX Machine Learning用心打造