趋近智
尽管CPU提供强大的灵活性,GPU为多种任务提供大规模并行处理能力,但还有一类处理器,专为单一任务实现最高效率而打造:即专用集成电路(ASIC)。对于某些大型AI计算需求,这些专用芯片能够提供通用硬件无法比拟的性能和能效。
专用集成电路(ASIC)是为特定目的而设计制造的芯片。不同于CPU被设计来运行完整的操作系统和无数种软件,ASIC的逻辑门是物理上布局好的,用于执行非常有限的操作集。可以将其理解为可编程的厨房电器(能混合、切碎、搅拌)与一台简单高效的咖啡研磨机之间的区别。研磨机只做一件事,但比通用电器更快、能耗更低。
在机器学习的背景下,ASIC旨在加速神经网络的数学基本运算,主要是矩阵乘法和卷积。通过去除所有不必要的组件,例如CPU复杂的条件分支预测或GPU的图形渲染管线,AI ASIC可以将其所有的芯片资源和功耗预算用于这些核心计算。
AI ASIC中最知名的例子是谷歌的张量处理器(TPU)。最初在内部开发,用于加速谷歌搜索和照片等服务的推理。现在,TPU通过谷歌云平台向公众提供。它们从零开始设计,以极高的速度和效率执行TensorFlow和JAX等机器学习框架中定义的操作。
TPU架构的核心创新是脉动阵列。
脉动阵列是由简单、相同的处理单元(PE)组成的网格,这些单元连接到最近的邻居。数据以有节奏的波浪状模式流经此网格,类似于血液通过循环系统泵送的方式,这也是“脉动”一词的由来。
矩阵乘法C=A⋅B的工作方式如下:
这种设计非常高效,因为数据不断移动并被计算。权重矩阵的值被多次重复使用,无需反复从内存中获取,这显著减少了内存带宽瓶颈和功耗。
脉动阵列示意图。激活值从顶部流入,而权重从侧面载入。每个处理单元(PE)执行计算并将数据传递给其邻居,从而实现高度并行和高效的计算流程。
ASIC的专用性带来了明确的权衡。对于其设计目的的任务,它们的性能和能效可以比高端GPU好一个数量级。这通常以每秒万亿次操作(TOPS)衡量,更重要的是,以每瓦特TOPS衡量。
针对典型矩阵密集型AI计算需求,不同处理器类型的归一化每瓦性能。TPU的专用特性使其能够以明显更低的功耗执行目标操作。
然而,这种性能是以牺牲灵活性为代价的。TPU不是通用处理器。它不能运行任意Python代码或渲染用户界面。它针对特定的操作集和数据类型(如bfloat16或INT8)进行了优化。如果您的模型使用新的、不受支持的操作,则必须修改模型或等待硬件和软件支持加入后才能在TPU上运行。
这形成了硬件选择的多样性:
尽管谷歌的TPU是知名度最高的AI ASIC,但它绝非唯一。对高效AI计算的需求促使了其他专用芯片的出现:
这些多样化解决方案的存在表明,对于达到一定规模的组织,设计或使用定制芯片是优化性能和成本的可行策略。对于大多数工程师和数据科学家而言,眼前的选择将是在通过云服务提供商使用这些ASIC,或者坚持使用更传统的基于GPU的基础设施之间。您的决定将取决于您计算需求的规模、预算,以及您的模型与ASIC专用能力的契合程度。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造