趋近智
在开始构建自编码器或运行主成分分析 (PCA) 示例之前,您需要一个配置好的 Python 环境。这个设置将为所有实际练习提供基础,让您能够进行代码实践并获得对自编码器的具体理解。
一个管理良好的环境可以确保您的项目拥有正确的依赖项,并且您可以在之后或在不同机器上重现结果。接下来,我们一起来看看如何准备您的深度学习 (deep learning)工作区。
Python 是机器学习 (machine learning)和深度学习 (deep learning)领域的主导语言,因其丰富的库和简洁的语法而受到重视。本课程建议使用 Python 3.8 或更新版本。如果您尚未安装 Python,可以从 Python 官方网站 (python.org) 下载。
管理 Python 包及其版本对于避免项目之间的冲突很重要。虚拟环境是解决此问题的标准方案。
虚拟环境是一种隔离的 Python 设置,它允许每个项目拥有自己的一套依赖项,独立于其他项目或系统级的 Python 安装。这样做有以下益处:
requirements.txt 文件),或供自己将来使用,确保环境可以精确地再次创建。您有两种常用的方式来管理虚拟环境和包:Python 内置的 venv 配合 pip,或者 conda。
某开发环境设置中常见层次的概览。
venv 是 Python 内置的创建虚拟环境的工具。pip 是 Python 的标准包安装器。
创建虚拟环境: 在终端中导航到您的项目目录,然后运行:
python -m venv my_autoencoder_env
将 my_autoencoder_env 替换为您喜欢的环境名称。这会创建一个包含环境文件的目录。
激活环境:
source my_autoencoder_env/bin/activate
.\my_autoencoder_env\Scripts\activate
您的终端提示符应更改以表示当前环境已激活。
安装包:
激活后,使用 pip install <package_name> 安装库。
停用环境: 完成后,只需输入:
deactivate
Conda 是一个开源的包管理系统和环境管理系统,在数据科学界尤为常用。它既可以管理 Python 包,也可以管理非 Python 软件。如果您没有安装它,可以通过 Anaconda 或 Miniconda 安装。
创建 Conda 环境:
conda create --name my_autoencoder_env python=3.9
将 my_autoencoder_env 替换为您选择的名称,并根据需要指定 Python 版本。
激活环境:
conda activate my_autoencoder_env
安装包:
在已激活的 Conda 环境中,使用 conda install <package_name> 或 pip install <package_name> 安装。对于 PyTorch 等复杂包,尤其是在涉及 GPU 支持时,Conda 通常是更优的选择,因为它能管理 CUDA 工具包的依赖项。
停用环境:
conda deactivate
选择您最熟悉的方法。本节的其余部分将假设您已有一个激活的虚拟环境。
本课程将提供使用 PyTorch 的示例和指导。PyTorch 是一个功能强大且应用广泛的框架,以其灵活性和 Python 风格著称。
PyTorch 是一个受欢迎的开源机器学习 (machine learning)库,以其灵活性和 Python 风格而受到认可。
安装 PyTorch 最好访问 PyTorch 官方网站 (pytorch.org),并使用他们提供的命令生成器,因为它可以根据您的操作系统、包管理器 (pip 或 conda) 和 CUDA 版本(如果需要 GPU 支持)自定义命令。
一个典型的 pip 命令可能如下所示(请务必在官方网站上核实):
pip install torch torchvision torchaudio
使用 PyTorch 进行 GPU 加速需要兼容的 NVIDIA GPU 和正确的 CUDA 工具包版本。PyTorch 网站提供了针对不同 CUDA 版本的具体安装命令。
除了深度学习 (deep learning)框架,其他几个 Python 库也是机器学习 (machine learning)任务的标准配置:
NumPy:Python 中进行数值计算的基本包。它为大型多维数组和矩阵提供支持,并附带一系列用于操作它们的数学函数。
pip install numpy
Pandas:一个提供高性能、易于使用的数据结构(如 DataFrame)和数据分析工具的库。它非常适合处理表格数据。
pip install pandas
Matplotlib:一个功能全面的库,用于在 Python 中创建静态、动画和交互式可视化。我们将用它来绘制损失曲线、查看图像重建和进行潜在空间的可视化。
pip install matplotlib
Seaborn:构建于 Matplotlib 之上,Seaborn 提供了一个高级界面,用于绘制美观且具有信息量的统计图表。
pip install seaborn
Scikit-learn:一个多功能的机器学习库,提供用于数据挖掘和数据分析的高效工具。我们将用它来完成 PCA、数据预处理和模型评估等任务。
pip install scikit-learn
venv:python -m venv myenvconda:conda create -n myenv python=3.9(根据需要调整 Python 版本)venv:source myenv/bin/activate (Linux/macOS) 或 .\myenv\Scripts\activate (Windows)conda:conda activate myenvpip install torch torchvision torchaudio)pip install numpy pandas matplotlib seaborn scikit-learn
如果您使用 conda 并更倾向于用它来安装包:
conda install numpy pandas matplotlib seaborn scikit-learn
您通常可以使用一条命令安装多个包。安装这些库后,最好验证它们是否已正确安装并在您激活的环境中可用。打开 Python 解释器或 Jupyter Notebook,尝试导入它们:
import sys
import torch
import numpy as np
import pandas as pd
import sklearn
import matplotlib
print(f"Python version: {sys.version}")
print(f"PyTorch version: {torch.__version__}")
print(f"NumPy version: {np.__version__}")
print(f"Pandas version: {pd.__version__}")
print(f"Scikit-learn version: {sklearn.__version__}")
print(f"Matplotlib version: {matplotlib.__version__}")
# 对于 PyTorch,检查 GPU 是否可用(可选)
if torch.cuda.is_available():
print(f"PyTorch CUDA available. Device: {torch.cuda.get_device_name(0)}")
else:
print("PyTorch CUDA 不可用。")
如果这些命令运行无误,您的基本环境就准备好了。
虽然您可以在任何文本编辑器中编写 Python 代码,但使用像 VS Code 或 PyCharm 这样的集成开发环境 (IDE) 可以通过代码补全、调试和版本控制集成等功能提高效率。
对于交互式开发和实践,尤其是在机器学习 (machine learning)中,强烈推荐使用 Jupyter Notebooks 或 JupyterLab。它们允许您将代码、文本、公式和可视化结合到单个文档中,非常适合迭代工作和成果分享。您可以使用以下命令安装 JupyterLab:
pip install jupyterlab
然后,在您激活的环境中,在终端运行 jupyter lab 来启动它。
您的环境设置完成后,现在可以开始处理本课程中的实践练习了,从下一节的主成分分析开始,然后是构建您的第一个自编码器。此设置提供了将理论知识转化为实践技能所需的工具。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•