联邦学习(FL)与传统集中式训练相比,展现出一种独特的运行模式。联邦学习不是将庞大数据集移动到中心位置,而是将计算移至数据源头,在客户端设备上本地训练模型。虽然这保护了数据隐私,但也带来了一个新的挑战:协调可能成千上万甚至数百万台设备并聚合它们的贡献。这种协调严重依赖网络通信,而网络通信经常成为首要的性能限制因素。
让我们分析为何通信,尤其是模型更新从客户端传输到中央服务器的过程,通常决定着联邦训练的速度。
规模与数据量问题
在一个普通的联邦学习轮次中,使用联邦平均(FedAvg)等算法时,参与客户端进行本地训练,然后将它们生成的模型更新(可以是模型权重或梯度)回传到服务器进行聚合。思考涉及的因素:
- 客户端数量: 联邦学习系统可以从少数组织(跨组织)到数百万终端用户设备(跨设备)。即使每轮只有一小部分客户端参与,总体数据传输量也可能非常大。
- 模型复杂度: 现代深度学习模型,常用于图像识别或自然语言处理等任务,可以拥有数百万甚至数十亿参数。每个参数通常由一个32位浮点数(4字节)表示。
- 更新大小: 对于大型模型,传输全部参数或梯度会产生很大的通信开销。对于一个拥有 Nparams 个参数的模型,单次更新的大小近似为:
更新大小≈Nparams×每参数字节数
例如,一个ResNet-50模型大约有2500万个参数。使用32位浮点数(4字节),单次更新大约是 25×106×4=100×106 字节,即100 MB。如果100个客户端参与一轮,服务器在那一轮就需要接收 100×100MB=10GB 的数据。在多轮中重复传输这样大的数据量,给网络带来了沉重负担。
网络限制:不对称性与可变性
连接客户端和服务器的网络特性常常使情况更加复杂:
- 上行与下行不对称性: 许多消费者互联网连接和移动网络是不对称的。下载速度(服务器到客户端)通常远高于上传速度(客户端到服务器)。由于客户端需要将它们计算出的更新上传到服务器,较慢的上行带宽成为决定性环节。分发全局模型(下行)通常比收集单个更新(上行)问题少。
- 网络异构性: 联邦学习系统中的客户端在不同的网络条件下运行。有些可能在快速稳定的Wi-Fi上,而另一些则使用不可靠或缓慢的蜂窝连接(3G、4G,有时断时续)。这种可变性意味着有些客户端(掉队者)传输更新所需时间比其他客户端长得多。在同步联邦学习协议中,服务器在继续之前等待一组客户端的更新,这时最慢的客户端决定了该轮通信阶段的时长。
联邦学习一轮中的数据流示意。上行通信(虚线),即从众多客户端通过多变且常受限的网络(特别是移动网络)传输本地更新,与下行通信(实心蓝线)相比,通常是瓶颈。在同步设置中,最慢客户端的上传速度可以决定该轮次的时间。
对训练性能的影响
这些通信挑战直接影响联邦学习的效率和可行性:
- 训练时间增加: 每个通信轮次耗时更长,因为上传速度慢以及等待掉队者。这大幅延长了模型收敛所需的总运行时间,通常使得网络传输时间而非本地计算成为主导因素。
- 可扩展性降低: 通信瓶颈限制了每轮可以实际参与的客户端数量或通信轮次的频率。试图增加客户端参与数量或通信频率会使可用带宽饱和。
- 模型大小的限制: 如果由此产生的更新(每个客户端可能达到数千兆字节)不能在合理的时间内有效传输,训练非常大的最先进模型变得不切实际。
- 能量消耗: 对于智能手机或物联网传感器等电池供电的边缘设备,频繁传输大量数据会消耗大量能量。这会负面影响用户体验或缩短设备使用寿命。
- 掉队者问题: 网络可变性导致掉队者出现。这些慢速客户端可能导致同步训练协议停滞,或在异步设置中需要复杂的缓存和过期管理策略。
理解这些通信瓶颈,是设计高效实用联邦学习系统不可或缺的一部分。传输更新所需的高昂成本促使人们开发专门用于减少这种开销的技术。本章的后续部分将详细介绍梯度压缩、量化、稀疏化和替代通信协议等方法,这些方法旨在缓解这些限制,从而实现更快速、更具扩展性的联邦学习。