所有课程

数据概览分析入门

章节 1: 数据初步分析的原理

什么是数据初步分析？

数据初步分析流程

EDA 的工具：Python 库简介

设置您的环境

第 1 章测验

章节 2: 数据加载、检查与初步清理

从多种来源加载数据（CSV、Excel、JSON）

数据初步观察：形状、头部、尾部

理解数据类型（dtypes）

处理缺失数据：识别

缺失数据的处理策略：填充与删除

检测和处理重复记录

动手实践：数据加载与初步整理

第 2 章测验

章节 3: 单变量分析：理解单个变量

分析数值变量：集中趋势

数值变量分析：离散程度

数值变量可视化：直方图

数值变量的可视化：箱线图

分析分类变量：频数统计

可视化分类变量：柱状图

使用统计方法识别异常值

练习：单变量数据分析

第 3 章测验

章节 4: 双变量分析：考察变量间的关系

数值变量与数值变量：散点图

数值变量与数值变量：相关性分析

相关性可视化：热力图

数值型与分类型：比较图表

分类变量与分类变量：交叉制表

分类变量间的可视化：堆叠条形图与分组条形图

动手实践：双变量分析

第 4 章测验

章节 5: 高级数据可视化与特征工程入门

多元数据可视化：对图

自定义图表以提高清晰度（标题、标签、图例）

特征工程思想介绍

从现有特征生成新特征

基本数据转换：缩放与归一化

处理分类特征：编码方法

降维思路介绍

汇总和报告EDA结果

实践操作：特征创建与归纳

第 5 章测验

处理分类特征：编码方法

这部分内容有帮助吗？

参考文献

Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists, Alice Zheng, Amanda Casari, 2018 (O'Reilly Media) - 对各种特征工程技术的全面指南，包括对类别编码策略及其实际应用的详细解释。
Preprocessing data (sklearn.preprocessing), Scikit-learn developers, 2024 - Scikit-learn数据预处理模块的官方文档，提供了OneHotEncoder和LabelEncoder等编码器的技术细节和使用示例。
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, Aurélien Géron, 2022 (O'Reilly Media, Inc.) - 一本实用的指南，涵盖了在构建机器学习模型的背景下，包括类别特征编码在内的重要数据预处理步骤。
CatBoost: unbiased boosting with categorical features, Liudmila Prokhorenkova, Gleb Gusev, Aleksandr Vorobev, Anna Veronika Dorogush, Andrey Gulin, 2018 Advances in Neural Information Processing Systems, Vol. 31 DOI: 10.5555/3295222.3295325 - 一篇学术论文，介绍了CatBoost，一种原生处理类别特征并采用特殊编码技术以避免数据泄漏和偏差的梯度提升算法，对理解目标编码的局限性尤其相关。

© 2025 ApX Machine Learning用心打造