趋近智
输入数据的质量直接影响任何机器学习 (machine learning)模型的性能。本章侧重于使用 Julia 准备数据以进行分析和模型训练的必要步骤。您将学习如何将各种来源的数据加载到 DataFrames.jl 中,这是一个重要的 Julia 表格数据处理包。我们将介绍数据清洗的方法,例如处理缺失值和识别异常值。此外,您将了解到数据转换方法,包括数值特征的缩放、分类变量的编码以及连续数据的分箱。我们还将阐述特征工程的原理,并演示如何在 Julia 环境中从您现有数据中创建新的、有用的特征。最后,您将看到如何使用 Julia 的绘图库,如 Plots.jl 和 Makie.jl,进行数据可视化,这有助于数据理解和预处理。完成本章后,您将掌握在 Julia 中处理和准备数据集以进行机器学习任务的实用技能。
2.1 使用 DataFrames.jl 加载和保存数据
2.2 数据清洗:处理缺失值和异常值
2.3 数据转换:缩放、编码和分箱
2.4 特征工程原则
2.5 在 Julia 中应用特征工程
2.6 使用 Plots.jl 和 Makie.jl 进行数据可视化
2.7 动手实践:数据清洗与特征创建
© 2026 ApX Machine Learning用心打造