章节 3: 图级别优化

一旦机器学习 (machine learning)模型被转换为中间表示 (IR)，其计算的逻辑结构就确定了。然而，初始图通常反映了用户定义的高级Python代码，优先考虑API的易用性而非执行效率。直接运行此图通常会导致次优的性能，原因在于过多的内存访问和重复计算。

本章介绍图级别优化，这些是应用于计算图的架构层面转换，在代码生成开始之前进行。这些优化过程会重写图的结构，以减少计算开销和内存带宽占用，同时确保数学结果保持不变。

您将学习编译器如何分析数据流来执行算子融合，这是一种将多个操作合并到一个核中的过程。例如，计算逐元素加法，然后是一个激活函数 (activation function)，例如 $y = \text{ReLU}(x + b)$ ，通常需要将中间和写入主内存并再次读取。这种合并使得硬件可以在数据仍在寄存器或缓存中时对其执行激活操作。