优化	游戏
f(x)	min_x∈X min_{x_i ∈ X_i} f_i(x_i, x_-i), i ∈ [N]
（强）凸性	（强）单调性
(cvx) 全局最小化	(cvx) NE: f_i(x_i, x_-i) ≤ f_i(x_i, x_-i*) 对于 i ∈ [N]
(ncvx) B-/Clarke 平稳性	(ncvx) 准/克拉克 NE

表1. 优化理论和博弈论之间的区别

○ 问题2. 单代理系统不影响吗？

○ 答案： 矩形假设用单智能体优化理论简化了问题。

○ 完美观察 MDP：观察状态 s_t 并选择 a_t。

○ 时间不变：奖励 r_t(s_t, a_t, s_t+1) 已知，并且在无限范围情况下，时间不变。

⑵ 背景理论

① DP(动态规划)

② ϵ-最优策略

③【巴纳赫不动点定理】(https://jb243.github.io/pages/1827)

④【博弈论】(https://jb243.github.io/pages/1914)

⑤【信息论】(https://jb243.github.io/pages/2145)

2.有限范围鲁棒 MDP

⑴ 概述：对于计算来说，状态/动作空间是有限的。

⑵ 策略π固定后的价值函数。

① 由于 s_t+1 是不明确的，我们允许时间 t 的奖励也取决于 s_t+1：r_t(s_t, a_t, s_t+1) 而不是 r_t(s_t, a_t)。

⑶ 贝尔曼方程（DP）

①简单证明

> ② 严格证明：使用 ϵ 最优策略和等价方法（同时显示 LHS ≥ RHS 和 LHS ≤ RHS）。

3。无限视野鲁棒 MDP

⑴ 概述：在折扣因子 λ < 1 和矩形不确定性下，鲁棒 Bellman 算子也是收缩的 → 值/策略迭代收敛。

⑵ 贝尔曼方程（DP）

⑶巴拿赫不动点定理

① 推论：inf 和sup 不会改变Banach 不动点定理的结论（关键结果）。请注意，(b) 是一个 NP 完全问题。

② 值迭代算法

○ 收缩性 → 当前残差的误差界限。

○ 一个更新步骤的错误。

○ 因此，要保证ㅣㅣṼ - V*ㅣㅣ ≤ ϵ / 2。

○ 论文的算法添加了一个额外的 1/2 乘数，并在满足该条件时停止。

○ 这个更严格的限制确保即使在更新 V ← Ṽ 后，误差仍然足够小（三角不等式的额外余量），因此在下一步选择贪心策略时，也满足性能损失界限（通常为 (2λ / (1 - λ)) ㅣㅣV - V*ㅣㅣ）——一个保守的（安全余量）设置。

③ 策略迭代算法

⑷ 决策者与对手之间的不对称

① 如果仅考虑平稳策略，在矩形、贴现无限视野和凸/紧 P(s, a) 下，即使动态对手可以每次访问改变选择，对平稳策略的最优响应也是“平稳”的（每个 (s,a) 具有相同的 p），产生相同的值。

② 动态对手看起来更强，但在固定政策下，实际最坏情况的反应是静态的，具有同等价值。

③ 然而，当对手静止时，决策者的静止政策可能不是最优的。更好的选择可能是随时间/历史调整权重的非固定/动态（通用）策略（Cover，1991）。

4。示例

⑴ 概述

① 由于 inf_p 引起的非凸性，整个 V 问题很难通过线性规划求解。> ② 该方法通过DP（值/策略迭代）处理外部结构，并快速凸地求解内部最小化。

③ 下面的例子表明，鲁棒MDP比纯MDP更重，但时间复杂度并没有显着增加

④ 总结

不确定性集	普通 DP（每个状态-动作）	鲁棒DP（每个状态-动作）
KL 置信度	𝒪(ㅣSㅣ)	𝒪(ㅣSㅣ)（常数倍的增加）
L₂（χ²-型）组	𝒪(ㅣSㅣ)	𝒪(ㅣSㅣlogㅣSㅣ)
L₁ 套	𝒪(ㅣSㅣ)	𝒪(ㅣSㅣlogㅣSㅣ)

⑵ 应用1. KL信心

①概述：内部问题简化为一维凸搜索（指数倾斜形式解）。

② 数据 → KL 散度： 根据 (s, a) 中观测到的频率，构建 MLE p̂_sa，并通过代数统计（卡方近似），将置信区域（置信水平 ω）定义为 𝒫(s, a) = {p: D(p ㅣㅣ p̂_sa) ≤ tω}。

③ 鲁棒期望+一维凸问题的闭式解： 求解 min_pε𝒫 𝔼^p[v] 的拉格朗日函数，得到 f(γ) = γt + γlog(𝔼^q[exp(-v / γ)])，一个一维凸函数，具有最优分布 p(s) ∝ q(s) exp((μ - v(s)) / γ)，即指数倾斜。所以一旦找到γ，就可以直接得到p。

④ 计算复杂度保证： f’(γ) 是单调/凸 → 二分法有效地找到 ϵ 近似值（每个 f’(γ) 评估是 𝒪(ㅣSㅣ)）。

⑤ 结论： 使用 KL 置信集对鲁棒 MDP 中的转移不确定性进行建模，产生封闭形式的快速一维凸优化（指数倾斜），使计算高度实用。

⑶ 应用2. L₂近似（χ²型）集

① 概述：一旦排序，阈值处理就可以实现快速计算→使得计算量大的鲁棒MDP实际上可以解决。

② 优化 inf_p∈𝒫 𝔼^p[v] 可以在 𝒪(ㅣ𝒮ㅣ log(ㅣ𝒮ㅣ)) 时间内解决。

⑷ 应用3. L₁近似集

① D(p ㅣㅣ q) ≥ (1 / 2 ln 2) ㅣㅣp - qㅣㅣ₁² → 𝒫 = {p: ㅣㅣp - qㅣㅣ1 ≤ δ}，使用 δ = √(2t ln2)。

② L₁ / L_∞ 类型的集合方便建模，但作为统计置信区域较弱 → 在实践中，更推荐基于 L₂ 的集合。

输入：2025.10.27 20:40

6131

第 9-1 章。稳健的 MDP

1.总体概述

2.有限范围鲁棒 MDP

3。无限视野鲁棒 MDP

4。示例

results matching ""

No results matching ""