您可能已经有一些机器学习的经验。您了解其典型流程:收集数据,精心设计输入特征,选择合适的算法(如支持向量机、决策树或逻辑回归),训练模型,并评估其表现。在许多传统机器学习应用中,大量精力投入到特征工程中。这需要运用领域知识,手动设计并从原始数据中提取有信息量的特征,以帮助模型做出准确预测。例如,在构建垃圾邮件检测器时,您可以设计诸如特定词语的频率、全大写文本的存在或感叹号数量等特征。这些传统模型的成功通常很大程度上取决于这些手动设计的特征的质量。创建好的特征可能耗时,需要特定问题领域的大量专业知识,并且可能无法捕捉数据中所有复杂、细微的模式,特别是对于涉及感知的任务,如图像识别或自然语言理解。深度学习是一种机器学习分支,它提供了一种独特的学习方法。其核心是受大脑结构和功能启发的算法,称为人工神经网络(ANN)。深度学习模型,特别是深层神经网络的显著特点是,它们能够通过分层过程直接从数据中学习相关特征。深度学习模型不是依靠人类来定义数据的最佳表示,而是自动学习多层次的表示,从低级特征开始,逐步构建更复杂、抽象的表示。想象一个图像分类任务。一个深度学习模型可能首先在其初始层中学习检测简单的边缘和纹理。随后的层可能将这些边缘组合起来,以识别角点和基本形状。更高层可以进一步整合这些形状,以识别物体部件(如眼睛或轮子),最终在最后层中识别完整的物体(如人脸或汽车)。这个过程常被称为表示学习。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", fontsize=10, margin=0.2]; edge [fontname="sans-serif", fontsize=9]; subgraph cluster_ml { label = "传统机器学习流程"; bgcolor="#e9ecef"; RawData_ML [label="原始数据"]; FeatureEng [label="手动特征\n工程"]; MLModel [label="机器学习算法\n(例如,SVM,RF)"]; Output_ML [label="输出"]; RawData_ML -> FeatureEng -> MLModel -> Output_ML; } subgraph cluster_dl { label = "深度学习流程"; bgcolor="#d0bfff"; RawData_DL [label="原始数据"]; DLModel [label=<深度学习模型<BR /><FONT POINT-SIZE="8">(特征学习 + 分类)</FONT>>]; Output_DL [label="输出"]; RawData_DL -> DLModel -> Output_DL; } }传统机器学习和深度学习典型流程的比较,强调深度学习中自动化特征学习的特点。这种自动学习特征的能力使得深度学习在处理涉及图像、音频信号和文本等非结构化数据的复杂问题时尤为有效,在这些情况下,手动设计有效特征非常困难。当有大量带标签数据可用于训练这些多层网络时,它也能表现出色。然而,重要的是要明白深度学习并非传统机器学习的通用替代品。传统方法通常表现良好,需要更少的数据,计算成本较低,并且更具可解释性,特别是对于结构化或表格数据。深度学习代表了更广泛的机器学习领域中一组强大的工具,在特定类型的难题任务上提供了当前最好的性能。本章主要介绍这些深度学习模型的基本组成部分。我们将从其生物学启发开始,并定义最简单的处理单元——人工神经元,然后再研究这些单元如何连接形成网络。