到目前为止,我们已经学习了蒙特卡洛和时序差分学习等方法,这些方法都依赖于维护一个将每个状态或状态-动作对映射到值的表格。这种方法适用于状态数量可控的问题。然而,许多实际问题涉及的状态空间非常庞大,甚至是连续的,这使得表格方法由于内存和计算要求而变得不切实际。本章将通过引入函数逼近来解决这一挑战。我们不再为每个状态存储精确的值,而是使用一个参数化函数来逼近值函数,该函数的参数数量远少于状态数量。我们的目标是从已见过的状态泛化到未见过的状态。你将学习:为什么函数逼近对于大规模强化学习问题是必需的。如何使用适合函数逼近器的特征向量来表示状态。逼近值函数的方法,最初侧重于线性函数。如何使用梯度下降,特别是半梯度方法,基于强化学习经验更新逼近器的参数。非线性函数逼近器(例如神经网络)的介绍,以捕捉更复杂的值函数形状。到本章结束时,你将理解如何将强化学习算法应用于状态空间太大而无法用简单表格处理的问题。