联邦优化的数学表述

在回顾了联邦学习的基本工作流程及其固有的难题，尤其是数据和系统异构性之后，我们现在建立一个更严谨的数学框架。准确定义优化问题对于理解、分析和设计高级联邦算法非常重要。

其核心在于，联邦学习旨在训练一个单一的全局模型，使用分散在多个客户端上的数据，而无需将数据集中化。目标通常被表述为最小化一个全局损失函数 (loss function)，它表示对各个损失函数的汇总，这些损失函数在每个客户端的本地数据上计算得到。

全局目标函数

联邦优化中的标准目标是找到模型参数 (parameter) $w$ ，使得全局目标函数 $F(w)$ 最小化。该函数通常定义为每个客户端 $k$ 的局部目标函数 $F_k(w)$ 的加权平均值：

F(w) = \sum_{k=1}^N p_k F_k(w)

让我们分解此方程的组成部分：

$w$ : 表示机器学习 (machine learning)模型的参数（例如，神经网络 (neural network)的权重 (weight)和偏置 (bias)），我们旨在对其进行优化。这是所有客户端共享的全局模型。
$N$ : 参与联邦学习过程的客户端总数（或在给定轮次中选定的子集）。
$k$ : 标识特定客户端的索引，范围从 $1$ 到 $N$ 。
$F_k(w)$ : 客户端 $k$ 的局部目标函数。此函数衡量当前全局参数 $w$ 在客户端 $k$ 的本地数据集 $D_k$ 上的表现。它量化 (quantization)了局部经验风险。
$p_k$ : 分配给客户端 $k$ 的权重，决定了它对全局目标的影响。一种常见的选择是根据客户端持有的数据量按比例加权。如果 $n_k = |D_k|$ 是客户端 $k$ 上的数据样本数量，并且 $n = \sum_{k=1}^N n_k$ 是所有客户端上的总样本数量，那么典型的加权方式是： $p_k = \frac{n_k}{n}$ 这确保了贡献更多数据的客户端对最终全局模型有按比例更大的影响。存在其他加权方案，例如均匀加权（ $p_k = 1/N$ ），如果数据大小未知，或者无论数据量如何都希望每个客户端做出同等贡献，则可能更偏好这种方式。请注意，通常要求 $\sum_{k=1}^N p_k = 1$ 。

局部目标函数

局部目标函数 $F_k(w)$ 通常是参数 (parameter)为 $w$ 的模型在客户端 $k$ 的本地数据 $D_k$ 上的平均损失。对于一个监督学习 (supervised learning)任务，数据点为 $(x_j, y_j)$ ，其中 $x_j$ 是输入特征向量 (vector)， $y_j$ 是目标标签， $F_k(w)$ 可以表示为：

F_k(w) = \frac{1}{n_k} \sum_{j \in D_k} \ell(w; x_j, y_j)

这里， $\ell(w; x_j, y_j)$ 是针对特定任务选择的损失函数 (loss function)，例如分类的交叉熵损失或回归的均方误差。它衡量单个数据点的预测误差。

从挑战部分重新提及的一点是，客户端之间的数据分布 ( $D_k$ ) 通常不是独立同分布（Non-IID）的。这种统计异构性意味着局部目标函数 $F_k(w)$ 彼此之间可能存在明显差异。一个客户端数据的最佳参数在另一个客户端数据上可能表现不佳。

优化目标

联邦优化过程的最终目标是找到一组全局参数 (parameter) $w^*$ ，使全局目标函数 $F(w)$ 最小化：

w^* = \arg \min_w F(w) = \arg \min_w \sum_{k=1}^N p_k F_k(w)

解决这个最小化问题带来了一些独特的困难，与传统集中式机器学习 (machine learning)相比：

数据去中心化： 数据集 $D_k$ 仍保留在本地客户端上，无法在中央服务器上汇集。需要直接访问完整数据集的标准优化算法不适用。
通信限制： 优化必须通过迭代通信进行，在中央服务器（或协调器）和客户端之间。通信轮次通常缓慢且开销大，成为一个主要的瓶颈。
异构性： 如前所述，统计异构性（非独立同分布数据）意味着 $\nabla F_k(w)$ （局部梯度）可能是 $\nabla F(w)$ （全局梯度）的一个糟糕近似。系统异构性（计算能力、网络速度、可用性不同）使同步更新进一步复杂化。

联邦优化算法，例如广泛使用的联邦平均（FedAvg）算法，专门设计用于在这些约束下找到近似解 $w^*$ 。它们通常包括在客户端进行多轮本地计算（例如，对局部目标 $F_k(w)$ 执行多步随机梯度下降 (gradient descent)），随后在服务器端聚合更新（例如，模型参数或梯度）以更新全局模型 $w$ 。

这种数学表述为联邦学习提供了一个清晰的目标。理解此目标是理解后续章节中讨论的高级算法设计与分析的第一步，这些算法旨在更高效、更稳定、更隐私地解决此问题。

这部分内容有帮助吗？

参考文献

Communication-Efficient Learning of Deep Networks from Decentralized Data, H. Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, Blaise Agüera y Arcas, 2017 Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS), Vol. 54 - 介绍了联邦平均（FedAvg）算法及联邦学习的基础数学公式。
Advances and Open Problems in Federated Learning, Peter Kairouz, H. Brendan McMahan, Brendan Avent, Aurélien Bellet, Mehdi Bennis, Arjun Nitin Bhagoji, Kallista Bonawitz, Zachary Charles, Graham Cormode, Rachel Cummings, Rafael G.L. D'Oliveira, Hubert Eichner, Salim El Rouayheb, David Evans, Josh Gardner, Zachary Garrett, Adrià Gascón, Badih Ghazi, Phillip B. Gibbons, Marco Gruteser, Zaid Harchaoui, Chaoyang He, Lie He, Zhouyuan Huo, Ben Hutchinson, Justin Hsu, Martin Jaggi, Tara Javidi, Gauri Joshi, Mikhail Khodak, Jakub Konečný, Aleksandra Korolova, Farinaz Koushanfar, Sanmi Koyejo, Tancrède Lepoint, Yang Liu, Prateek Mittal, Mehryar Mohri, Richard Nock, Ayfer Özgür, Rasmus Pagh, Mariana Raykova, Hang Qi, Daniel Ramage, Ramesh Raskar, Dawn Song, Weikang Song, Sebastian U. Stich, Ziteng Sun, Ananda Theertha Suresh, Florian Tramèr, Praneeth Vepakomma, Jianyu Wang, Li Xiong, Zheng Xu, Qiang Yang, Felix X. Yu, Han Yu, Sen Zhao, 2021 Foundations and Trends in Machine Learning, Vol. 4 DOI: 10.1561/2200000083 - 联邦学习的全面综述，涵盖其数学基础、面临的挑战和各种算法。
Federated Learning, Qiang Yang, Yang Liu, Yong Cheng, Yan Kang, Tianjian Chen, Han Yu, 2019 (Morgan & Claypool Publishers) DOI: 10.2200/S00925ED1V01Y201906AIM004 - 对联邦学习进行了结构化介绍，包括其正式问题设置和基本算法。