"许多问题,尤其是在医疗保健、个性化教育和自适应系统控制中,涉及随时间推移做出的一系列决策。在任何给定时间点的最佳决策通常取决于个体或系统的过往信息,包括过去的治疗、协变量和结果。静态干预措施(即事先固定治疗)在这些动态环境中不够用。这使得**动态治疗方案 (DTRs)**的框架成为必需。"DTR是一系列决策规则,每个决策点或阶段对应一个规则,将可用的历史信息映射到推荐的行动或治疗。目标通常是通过根据系统或个体的演变状态调整干预措施,来优化长期结果。动态治疗方案的形式化让我们考虑一个有 $K$ 个决策阶段的场景,索引为 $k = 1, ..., K$。在每个阶段 $k$:$S_k$ 代表系统状态(例如,患者健康指标、系统指标)。$A_k$ 代表在阶段 $k$ 选择的行动或治疗。$R_{k+1}$ 代表在状态 $S_k$ 采取行动 $A_k$ 后观察到的回报或结果。$H_k = (S_1, A_1, R_2, S_2, ..., A_{k-1}, R_k, S_k)$ 表示在阶段 $k$ 决策时可用的历史信息。请注意,$H_1 = S_1$。DTR 正式定义为一系列决策规则 $d = (d_1, ..., d_K)$,其中每个规则 $d_k$ 是一个函数,将历史信息 $H_k$ 映射到可用行动集合 $\mathcal{A}_k$ 中的特定行动: $$ d_k: H_k \mapsto A_k \in \mathcal{A}_k $$特定 DTR $d$ 的价值,表示为 $V(d)$,是如果治疗按照该方案分配,则获得的预期累积结果(回报总和): $$ V(d) = E \left[ \sum_{k=1}^{K} R_{k+1} \mid A_k = d_k(H_k) \text{ 对于所有 } k \right] $$ 目标是找到最优DTR,$d^{opt} = (d_1^{opt}, ..., d_K^{opt})$,使其预期累积结果最大化: $$ V(d^{opt}) = \max_{d} V(d) $$从数据中估计 $d^{opt}$ 需要应对序列因果推断的难题,尤其是在使用治疗并非随机分配的观察数据时。我们需要方法来估计不同潜在DTRs所规定的治疗序列下的反事实结果。一个常见的识别假设是序列条件可忽略性(或序列随机化)假设,它指出在每个阶段 $k$,治疗 $A_k$ 在给定观测历史 $H_k$ 的情况下,与未来的潜在结果条件独立。形式上: $$ {Y_k(a_k, ..., a_K), ..., Y_K(a_k, ..., a_K)} \perp A_k \mid H_k $$ 对于所有可能的治疗序列 $(a_k, ..., a_K)$,其中 $Y_j(\cdot)$ 表示阶段 $j$ 的潜在结果。我们还需要正性假设:对于所有 $k$、$h_k$ 和在人群中具有正概率的 $a_k$,有 $P(A_k = a_k | H_k = h_k) > 0$。digraph DTR { rankdir=LR; node [shape=box, style=rounded, fontname="Arial", fontsize=10]; edge [fontname="Arial", fontsize=9]; subgraph cluster_0 { label = "阶段 1"; bgcolor="#e9ecef"; H1 [label="历史 H1\n(S1)"]; A1_rule [label="规则 d1(H1)", shape=diamond, style=filled, fillcolor="#748ffc"]; H1 -> A1_rule; } subgraph cluster_1 { label = "阶段 2"; bgcolor="#e9ecef"; H2 [label="历史 H2\n(S1, A1, R2, S2)"]; A2_rule [label="规则 d2(H2)", shape=diamond, style=filled, fillcolor="#748ffc"]; H2 -> A2_rule; } subgraph cluster_2 { label = "结果"; bgcolor="#e9ecef"; Outcome [label="累积\n结果\nΣ Rk"]; } A1_rule -> H2 [label=" 观测 A1,\n 得到 R2, S2"]; A2_rule -> Outcome [label=" 观测 A2,\n 得到 R3"]; A1_treat1 [label="治疗 1a", shape=ellipse, style=dashed, color="#adb5bd"]; A1_treat2 [label="治疗 1b", shape=ellipse, style=dashed, color="#adb5bd"]; A1_rule -> A1_treat1 [style=dashed, color="#adb5bd"]; A1_rule -> A1_treat2 [style=dashed, color="#adb5bd"]; A2_treat1 [label="治疗 2a", shape=ellipse, style=dashed, color="#adb5bd"]; A2_treat2 [label="治疗 2b", shape=ellipse, style=dashed, color="#adb5bd"]; A2_rule -> A2_treat1 [style=dashed, color="#adb5bd"]; A2_rule -> A2_treat2 [style=dashed, color="#adb5bd"]; }一个简化的两阶段动态治疗方案图示。每个阶段的决策(菱形)取决于累积的历史信息,并影响后续状态和最终的累积结果。通过Q学习进行估计Q学习,借鉴了强化学习,是一种估计最优DTR的常用方法。它通过反向递归工作,从最后一个阶段开始。主要思想是估计状态-行动价值函数,即Q函数 $Q_k(h_k, a_k)$,它表示从阶段 $k$ 开始的预期累积结果,给定历史 $h_k$ 并已选择行动 $a_k$。步骤如下:阶段 K (最终阶段): 对在历史 $H_K$ 和行动 $A_K$ 条件下的预期最终回报进行建模。这直接给出了最后阶段的Q函数: $$ Q_K(H_K, A_K) = E[R_{K+1} | H_K, A_K] $$ 这个期望是使用回归模型(例如,线性回归、随机森林、神经网络)估计的,该模型根据所有受试者 $i$ 的观测数据 $(H_{Ki}, A_{Ki}, R_{K+1, i})$ 拟合。设 $\hat{Q}K(h_K, a_K)$ 为拟合模型。阶段 K 的最优决策规则为: $$ d_K^{opt}(h_K) = \arg\max{a_K \in \mathcal{A}_K} \hat{Q}_K(h_K, a_K) $$阶段 k (k = K-1 倒推至 1): 假设我们已经估计了 $\hat{Q}{k+1}(h{k+1}, a_{k+1})$。可以估计从阶段 $k+1$ 开始的最优价值,给定历史 $H_{k+1}$,记作 $V_{k+1}(H_{k+1}) = \max_{a_{k+1} \in \mathcal{A}{k+1}} \hat{Q}{k+1}(H_{k+1}, a_{k+1})$。阶段 $k$ 的Q函数由贝尔曼方程定义: $$ Q_k(H_k, A_k) = E[R_{k+1} + V_{k+1}(H_{k+1}) | H_k, A_k] $$ 为了估计这一点,我们拟合一个回归模型来估计 $Q_k(H_k, A_k)$,使用伪结果 $Y_{k,i} = R_{k+1, i} + \max_{a_{k+1}} \hat{Q}{k+1}(H{k+1, i}, a_{k+1})$ 作为响应变量,并使用 $(H_{ki}, A_{ki})$ 作为预测变量。设拟合模型为 $\hat{Q}k(h_k, a_k)$。阶段 $k$ 的最优决策规则为: $$ d_k^{opt}(h_k) = \arg\max{a_k \in \mathcal{A}_k} \hat{Q}_k(h_k, a_k) $$这种反向迭代过程得到了所有阶段的最优决策规则 $(\hat{d}_1^{opt}, ..., \hat{d}_K^{opt})$ 的估计。实施考量:在每个阶段使用的回归模型(Q模型)的灵活性对于捕捉历史、行动和结果之间复杂关系很重要。一个重要的实际难题是潜在的模型误设定。Q模型在阶段 $k+1$ 的误差可以向后传播并影响阶段 $k$ 的估计。通过A学习(增强逆概率加权)进行估计A学习提供了另一种方法,它直接对每个阶段采取某一行动相对于基线或参考行动的优势或对比进行建模,而不是像Q学习那样建模完整的预期结果轨迹。它通常会得到双重稳健的估计方程,对结果模型或倾向分数模型的误设定提供保护(但不能同时保护两者)。让我们关注单一阶段 $k$ 并稍微简化符号。假设我们想估计定义最优治疗规则 $d_k(H_k; \psi_k)$ 的参数 $\psi_k$。A学习侧重于“blip函数”或阶段k治疗效应,即对于那些直到阶段 $k-1$ 都遵循最优方案并在阶段 $k$ 接受治疗 $A_k$ 的个体。A学习在阶段 $k$ 的主要估计方程通常采用与以下形式相关联的方式: $$ E \left[ \frac{I(A_k = a_k)}{\pi_k(H_k)} (Y - Q_k^*(H_k, A_k)) \cdot \frac{\partial}{\partial \psi_k} C_k(H_k, A_k; \psi_k) \right] = 0 $$ 其中:$Y$ 是从阶段 $k$ 开始的累积结果。$\pi_k(H_k) = P(A_k = a_k | H_k)$ 是观测到的行动 $a_k$ 的倾向分数。$Q_k^*(H_k, A_k)$ 是以历史和行动为条件的预期结果模型(结果回归模型)。$C_k(H_k, A_k; \psi_k)$ 是“对比”函数,由 $\psi_k$ 参数化,捕获治疗 $A_k$ 相对于基线的益处,可能根据历史 $H_k$ 进行调整。通常对于二元 $A_k \in {0, 1}$,有 $C_k(H_k, A_k; \psi_k) = A_k \cdot \beta_k^T X_k$,其中 $X_k$ 是从 $H_k$ 派生的特征。A学习逐阶段进行,通常是反向或正向,求解这些估计方程。实施考量:需要拟合倾向分数模型 $\pi_k(H_k)$ 在每个阶段。需要拟合阶段特定的结果模型 $Q_k^*(H_k, A_k)$。主要目标是定义最优规则的参数 $\psi_k$,这使得它比Q学习更直接地识别最优策略参数。如果倾向分数模型正确,即使结果模型 $Q_k^*$ 误设定,它也可能比Q学习更有效(在某些条件下)。反之,它严重依赖于倾向分数模型的正确性。关联与注意事项Q学习和A学习都提供了有效的框架来估计最优DTRs,从根本上解决了一个序列因果推断问题。它们与强化学习中的离策略评估和学习方法密切相关。Q学习直接实现了基于贝尔曼方程的价值迭代。A学习方法与强化学习中的策略梯度和基于优势的方法相关。在Q学习和A学习之间选择通常取决于问题的具体情况、可用数据的质量以及对结果模型或倾向分数模型的假设。评估估计DTRs的性能也是一个重大难题,通常需要模拟研究或独立的验证数据集。仔细考虑序列可忽略性和正性假设对于估计方案的有效性是必需的。这些方法提供了重要的工具,用于优化复杂动态系统中的干预序列。