在开始构建自编码器或运行主成分分析 (PCA) 示例之前,您需要一个配置好的 Python 环境。这个设置将为所有实际练习提供基础,让您能够进行代码实践并获得对自编码器的具体理解。一个管理良好的环境可以确保您的项目拥有正确的依赖项,并且您可以在之后或在不同机器上重现结果。接下来,我们一起来看看如何准备您的深度学习工作区。Python:核心Python 是机器学习和深度学习领域的主导语言,因其丰富的库和简洁的语法而受到重视。本课程建议使用 Python 3.8 或更新版本。如果您尚未安装 Python,可以从 Python 官方网站 (python.org) 下载。包管理和虚拟环境管理 Python 包及其版本对于避免项目之间的冲突很重要。虚拟环境是解决此问题的标准方案。为何使用虚拟环境?虚拟环境是一种隔离的 Python 设置,它允许每个项目拥有自己的一套依赖项,独立于其他项目或系统级的 Python 安装。这样做有以下益处:依赖项隔离:不同项目可能需要同一库的不同版本。虚拟环境可以避免这些版本之间的冲突。可重现性:您可以轻松地与他人分享精确的依赖项列表(例如 requirements.txt 文件),或供自己将来使用,确保环境可以精确地再次创建。整洁性:它使您的全局 Python 安装保持整洁,不受项目特定包的影响。您有两种常用的方式来管理虚拟环境和包:Python 内置的 venv 配合 pip,或者 conda。digraph G { rankdir=TB; bgcolor="transparent"; node [shape=box, style="filled", fillcolor="#e9ecef", fontname="Arial"]; edge [fontname="Arial"]; OS [label="您的操作系统\n(Windows, macOS, Linux)"]; Python [label="Python 安装"]; VEnv [label="虚拟环境\n(例如:venv, conda)"]; DLFramework [label="深度学习框架\n(TensorFlow 或 PyTorch)"]; Libraries [label="支持库\n(NumPy, Pandas, Scikit-learn, Matplotlib)"]; OS -> Python; Python -> VEnv [label="隔离"]; VEnv -> DLFramework [label="包含"]; VEnv -> Libraries [label="包含"]; }某开发环境设置中常见层次的概览。使用 venv 和 pipvenv 是 Python 内置的创建虚拟环境的工具。pip 是 Python 的标准包安装器。创建虚拟环境: 在终端中导航到您的项目目录,然后运行:python -m venv my_autoencoder_env将 my_autoencoder_env 替换为您喜欢的环境名称。这会创建一个包含环境文件的目录。激活环境:在 macOS 和 Linux 上:source my_autoencoder_env/bin/activate在 Windows 上:.\my_autoencoder_env\Scripts\activate您的终端提示符应更改以表示当前环境已激活。安装包: 激活后,使用 pip install <package_name> 安装库。停用环境: 完成后,只需输入:deactivate使用 CondaConda 是一个开源的包管理系统和环境管理系统,在数据科学界尤为常用。它既可以管理 Python 包,也可以管理非 Python 软件。如果您没有安装它,可以通过 Anaconda 或 Miniconda 安装。创建 Conda 环境:conda create --name my_autoencoder_env python=3.9将 my_autoencoder_env 替换为您选择的名称,并根据需要指定 Python 版本。激活环境:conda activate my_autoencoder_env安装包: 在已激活的 Conda 环境中,使用 conda install <package_name> 或 pip install <package_name> 安装。对于 PyTorch 等复杂包,尤其是在涉及 GPU 支持时,Conda 通常是更优的选择,因为它能管理 CUDA 工具包的依赖项。停用环境:conda deactivate选择您最熟悉的方法。本节的其余部分将假设您已有一个激活的虚拟环境。深度学习框架本课程将提供使用 PyTorch 的示例和指导。PyTorch 是一个功能强大且应用广泛的框架,以其灵活性和 Python 风格著称。PyTorchPyTorch 是一个受欢迎的开源机器学习库,以其灵活性和 Python 风格而受到认可。安装 PyTorch 最好访问 PyTorch 官方网站 (pytorch.org),并使用他们提供的命令生成器,因为它可以根据您的操作系统、包管理器 (pip 或 conda) 和 CUDA 版本(如果需要 GPU 支持)自定义命令。一个典型的 pip 命令可能如下所示(请务必在官方网站上核实):pip install torch torchvision torchaudio使用 PyTorch 进行 GPU 加速需要兼容的 NVIDIA GPU 和正确的 CUDA 工具包版本。PyTorch 网站提供了针对不同 CUDA 版本的具体安装命令。必要的支持库除了深度学习框架,其他几个 Python 库也是机器学习任务的标准配置:NumPy:Python 中进行数值计算的基本包。它为大型多维数组和矩阵提供支持,并附带一系列用于操作它们的数学函数。pip install numpyPandas:一个提供高性能、易于使用的数据结构(如 DataFrame)和数据分析工具的库。它非常适合处理表格数据。pip install pandasMatplotlib:一个功能全面的库,用于在 Python 中创建静态、动画和交互式可视化。我们将用它来绘制损失曲线、查看图像重建和进行潜在空间的可视化。pip install matplotlibSeaborn:构建于 Matplotlib 之上,Seaborn 提供了一个高级界面,用于绘制美观且具有信息量的统计图表。pip install seabornScikit-learn:一个多功能的机器学习库,提供用于数据挖掘和数据分析的高效工具。我们将用它来完成 PCA、数据预处理和模型评估等任务。pip install scikit-learn汇总:快速设置指南安装 Python:确保您的系统上已安装 Python 3.8+。选择并创建虚拟环境:使用 venv:python -m venv myenv使用 conda:conda create -n myenv python=3.9(根据需要调整 Python 版本)激活您的环境:venv:source myenv/bin/activate (Linux/macOS) 或 .\myenv\Scripts\activate (Windows)conda:conda activate myenv安装深度学习框架:PyTorch:(使用 pytorch.org 上的命令,例如 pip install torch torchvision torchaudio)安装支持库:pip install numpy pandas matplotlib seaborn scikit-learn如果您使用 conda 并更倾向于用它来安装包:conda install numpy pandas matplotlib seaborn scikit-learn您通常可以使用一条命令安装多个包。验证您的安装安装这些库后,最好验证它们是否已正确安装并在您激活的环境中可用。打开 Python 解释器或 Jupyter Notebook,尝试导入它们:import sys import torch import numpy as np import pandas as pd import sklearn import matplotlib print(f"Python version: {sys.version}") print(f"PyTorch version: {torch.__version__}") print(f"NumPy version: {np.__version__}") print(f"Pandas version: {pd.__version__}") print(f"Scikit-learn version: {sklearn.__version__}") print(f"Matplotlib version: {matplotlib.__version__}") # 对于 PyTorch,检查 GPU 是否可用(可选) if torch.cuda.is_available(): print(f"PyTorch CUDA available. Device: {torch.cuda.get_device_name(0)}") else: print("PyTorch CUDA 不可用。")如果这些命令运行无误,您的基本环境就准备好了。关于 IDE 和 Jupyter Notebook 的说明虽然您可以在任何文本编辑器中编写 Python 代码,但使用像 VS Code 或 PyCharm 这样的集成开发环境 (IDE) 可以通过代码补全、调试和版本控制集成等功能提高效率。对于交互式开发和实践,尤其是在机器学习中,强烈推荐使用 Jupyter Notebooks 或 JupyterLab。它们允许您将代码、文本、公式和可视化结合到单个文档中,非常适合迭代工作和成果分享。您可以使用以下命令安装 JupyterLab:pip install jupyterlab然后,在您激活的环境中,在终端运行 jupyter lab 来启动它。您的环境设置完成后,现在可以开始处理本课程中的实践练习了,从下一节的主成分分析开始,然后是构建您的第一个自编码器。此设置提供了将理论知识转化为实践技能所需的工具。