趋近智
到目前为止,我们已经学习了蒙特卡洛和时序差分学习等方法,这些方法都依赖于维护一个将每个状态或状态-动作对映射到值的表格。这种方法适用于状态数量可控的问题。然而,许多实际问题涉及的状态空间非常庞大,甚至是连续的,这使得表格方法由于内存和计算要求而变得不切实际。
本章将通过引入函数逼近来解决这一挑战。我们不再为每个状态存储精确的值,而是使用一个参数化函数来逼近值函数,该函数的参数数量远少于状态数量。我们的目标是从已见过的状态泛化到未见过的状态。
你将学习:
到本章结束时,你将理解如何将强化学习算法应用于状态空间太大而无法用简单表格处理的问题。
6.1 处理大规模状态空间
6.2 价值函数近似 (VFA)
6.3 状态表示的特征向量
6.4 价值函数逼近的线性方法
6.5 用于参数学习的梯度下降
6.6 半梯度 TD 方法
6.7 使用神经网络进行价值函数近似
6.8 实践:应用线性价值函数近似
© 2026 ApX Machine Learning用心打造