即时编译器（JIT）中的配置文件引导优化（PGO）

配置文件引导优化（PGO）为即时编译（JIT）系统提供了一种有效方法，通过使用运行时执行的特点来提升性能。与仅依赖编译时分析的静态预先（AOT）编译，或只基于当前调用上下文 (context)的纯动态JIT优化不同，PGO引入了一个反馈循环。它在多次运行中收集典型执行模式的数据，并使用这些信息来引导相同代码区域的后续JIT编译工作。这种方法使JIT能够做出更明智的决定，优先优化实践中最常执行的路径和常见数据模式。

机器学习 (machine learning)JIT中PGO的动机

在由XLA或TorchScript等JIT系统编译的机器学习工作负载中，PGO具有几个独特的优点：

稳定的执行模式： 许多机器学习推理 (inference)场景涉及处理具有一致特点的数据（例如，固定的输入图像尺寸、常见的批处理大小）。虽然存在动态形状，但某些形状或值范围可能占主导。PGO可以识别这些主导模式，即使它们不是静态已知的。
优化常见情况： JIT编译器常面临权衡选择，例如决定如何积极地内联函数或为特定的张量形状专门化代码。PGO提供经验数据，支持对经常遇到的情况进行大量优化，同时可能接受稀有情况下的次优性能。
减少编译开销和提高代码质量： JIT编译本身会产生运行时开销。PGO可以帮助将昂贵的优化过程或积极的专门化工作，只集中于通过性能分析识别出的模型“热点”部分，从而为关键代码段带来更快的预热时间或更好的稳定性能。
指导复杂启发式算法： 许多编译器优化依赖启发式算法（例如，循环展开因子、寄存器分配优先级）。PGO数据可以改进这些启发式算法，根据观察到的运行时行为，如缓存未命中或针对机器学习模型执行的特定分支频率，来调整它们。

PGO在JIT环境中的工作方式

在JIT系统中实现PGO通常涉及执行、分析、反馈和重新编译的循环：

分析阶段： JIT编译的函数首次执行的几次（或在执行期间定期），运行时系统会收集配置文件数据。这通常通过以下方式完成：
- 插桩： JIT在生成的机器代码中插入轻量级代码片段（例如，基本块或函数入口上的计数器，张量形状/值的检查）。
- 采样： 运行时定期中断执行并采样程序计数器或调用堆栈，以统计性地确定时间花费的位置。
- 收集的数据： 常见的数据点包括基本块执行次数、函数调用频率、观察到的张量形状和数据类型、常见的分支结果（已采取/未采取），以及如果可访问，还包括硬件性能计数器（缓存未命中、指令停顿）。
反馈机制： 收集到的配置文件数据会被汇总并存储，通常与正在编译的特定函数或代码区域关联。这份配置文件需要足够持久，以影响相同代码的未来JIT编译。
使用配置文件数据进行重新编译： 当JIT编译器再次被调用来处理一个具有关联配置文件数据的函数时，它会利用这些信息来指导其优化决策：
- 优化选择： 根据配置文件计数启用或调整优化（例如，对热点函数进行更积极的内联）。
- 代码布局： 重新排序基本块，使频繁执行的序列连续放置，从而提高指令缓存的局部性。
- 专门化： 根据观察到的频率，决定哪些特定的张量形状或值值得生成专门化的代码版本。
- 分支预测： 根据观察到的结果，为静态分支预测提供提示。

即时编译器（JIT）系统中配置文件引导优化的基本流程。初始运行收集数据，这些数据被存储，然后由JIT用于优化后续编译。

机器学习 (machine learning)JIT中具体的PGO技术

PGO能够实现对机器学习性能很重要的几种特定优化：

热/冷代码分离： 根据基本块的频率，JIT可以在物理上将经常执行的（热）代码路径与很少执行的（冷）代码路径（例如，错误处理）分离。这提高了常见情况下的指令缓存密度。
布局优化： 频繁顺序执行的热点基本块可以在内存中相邻放置，从而减少指令缓存未命中和分支惩罚。
优化内联： 配置文件数据强烈指示哪些函数调用对性能最重要。JIT可以利用这一点，对热点函数进行更积极的内联，即使它们略微超出正常大小阈值，同时避免通过内联冷函数来使代码膨胀。
值分析用于专门化： PGO不仅可以基于任何观察到的形状进行专门化，还可以识别运行时张量中最频繁的形状甚至常量值。JIT随后可以专门为这些常见情况生成高度优化的代码，可能对不那么常见的情况使用更简单的代码路径或防护措施。例如，如果池化操作几乎总是看到步长为2，PGO可能会触发对步长=2的专门化。
寄存器分配提示： 关于变量活跃度或循环执行次数的配置文件数据可以为寄存器分配器提供提示，可能提高热点循环的寄存器利用率。
有依据的防护： 在执行推测性优化（例如，假设某个形状）时，PGO可以为成本/效益分析提供信息。如果配置文件数据强烈表明该假设在大多数时间都成立，则可能会生成廉价的防护措施与高度优化的专门化代码。如果配置文件数据不一致，则可能会采取更保守的方法。

挑战与考量

PGO虽然功能强大，但在JIT环境中实现它也带来挑战：

分析开销： 收集配置文件数据的行为会消耗CPU周期和可能的内存。插桩必须轻量化 (quantization)，采样频率需要仔细调整，以平衡准确性和开销。
配置文件过时： 最佳执行模式可能随时间变化（例如，由于输入数据分布的变化）。系统需要有策略来检测陈旧性，可能会丢弃旧配置文件或将新数据与旧数据混合。自适应编译系统通常隐式处理这一点。
配置文件管理： 存储、加载并将配置文件与正确的代码版本关联需要仔细的工程设计，特别是在分布式或长时间运行的服务器环境中。
复杂性： 添加PGO会大幅增加JIT编译器和运行时系统的复杂性。管理反馈循环、插桩以及配置文件驱动的优化逻辑并不简单。
冷启动性能： PGO的好处通常在收集配置文件后的初始“冷启动”运行后显现。此初始阶段的性能可能不佳。

PGO代表了JIT编译器的一种精巧技术，其分析方式不再局限于纯静态或纯动态。通过整合历史运行时信息，PGO使像XLA和TorchScript这样的机器学习 (machine learning)JIT系统能够为模型的实际使用模式生成高度优化的代码，从而在许多实际部署场景中带来明显的性能提升。当它整合到更广泛的自适应编译框架中，能够管理配置文件生命周期并智能触发重新编译时，通常效果最佳。

参考文献

Profile-Guided Optimizations (PGO), The LLVM Project, 2023 (The LLVM Project) - LLVM编译器基础设施中配置文件引导优化的实现和使用官方文档，LLVM是许多JIT的常见后端。
Dynamic Compilation and Software Feedback, Matthew Arnold, Stephen Fink, Vivek Sarkar, and David Smith, 2005 Lecture Notes in Computer Science, Vol. 3568 (Springer, Berlin, Heidelberg) DOI: 10.1007/11527787_2 - 这是一章关于动态编译技术的学术概述，重点介绍了PGO等反馈机制，有助于理解先进的JIT优化。