趋近智
首页
博客
课程
大模型
中
所有课程
特征工程介绍
章节 1: 特征在机器学习中的作用
重温机器学习工作流程
什么是特征?
特征质量对模型表现的影响
常见数据类型及对应的问题
特征工程任务概览
章节 2: 处理缺失数据
识别缺失值
缺失数据机制 (MCAR, MAR, MNAR)
简单填充策略:均值、中位数、众数
创建缺失值指示器
多变量填充:KNN填充器
多元插补:迭代插补器
比较插补方法
动手实践:填充缺失数据
章节 3: 类别特征编码
分类数据的难点
标称类别与序数类别
标称特征的独热编码
有序特征的序数编码
高基数特征的处理
目标编码(均值编码)
二进制编码
哈希编码器
比较编码方法
动手实践:应用编码技术
章节 4: 特征缩放与变换
特征缩放的必要性
标准化 (Z-score 缩放)
归一化(最小-最大值缩放)
处理异常值的缩放
对偏斜数据的对数变换
Box-Cox 变换
Yeo-Johnson 变换
分位数变换
选择合适的缩放/转换方法
动手实践:特征缩放与转换
章节 5: 特征构建
创建新特征的动机
交互特征
多项式特征
基于日期/时间数据的特征构建
数值特征分箱
领域特征工程
自动化特征生成(引言)
动手实践:构建新特征
章节 6: 特征选择
特征选择的重要性
过滤方法概述
过滤方法:方差阈值
过滤方法:单变量统计检验(ANOVA F值,卡方)
过滤方法:相关性分析
封装器方法概述
封装方法:递归特征消除 (RFE)
封装方法:序列特征选择 (SFS)
嵌入式方法概览
嵌入式方法:正则化(Lasso L1)
嵌入式方法:基于树的特征重要性
动手实践:特征选择
标称类别与序数类别
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
标称数据与序数数据