Korean, Edit

第 9 章随机控制理论

推荐帖子:【控制理论】【控制理论目录】(https://jb243.github.io/pages/1909)


1. 西格玛代数

2. 随机控制理论术语

3. 随机控制理论定律

4. 高级主题


a. 博弈论

b. 强化学习

c. 信仰的力量



1.西格玛代数

⑴【概率空间】(https://jb243.github.io/pages/1623)

Sigma-代数(σ-algebra)



2.随机控制理论术语

⑴ 变量定义

State(系统状态)xt:表示特定值或随机变量;下同

观察 yt:在完美观察情况下,yt = xt

噪声(系统噪声)、干扰误差原始随机变量 wt、vt

系统状态噪声 wt

观察噪声 vt

⑥ 原始随机种子产生随机不确定性 x0

控制 ut

控制策略/法律/政策 gt


스크린샷 2025-10-15 10 06 54


系统状态序列 xt+1 := ft(xt, ut, wt)

观察序列 yt := ht(xt, vt)

控制输入动作 ut := gt(y0:t, u0:t-1)。使用所有过去的信息称为完美回忆

⑵ 按系统顺序分类

DDS(确定性系统):xt+1 := ft(xt, ut, wt) = ft(xt, ut)。 yt := ht(xt, vt) = ht(xt)。在任何时间 t,状态变量 xt 和输出变量 yt 都是已知的情况。

SDS(随机动力学模型):xt+1 := ft(xt, ut, wt), yt+1 := ht(xt, vt), wt, vt ≢ 0。

⑶ 按控制输入分类

开环控制:ut := gt(y0:t, u0:t-1) = gt(u0:t-1)。

反馈控制:过去的输出 y0:t 影响控制动作 u 的情况。

集中随机控制: (1) 随机动力系统 + (2) 一个控制器 + (3) 具有完美召回率的控制器

多控制器问题:团队问题、竞技游戏等。

⑷ 按政策分类

决策过程:处理决策问题的一般框架,其中状态、行动和奖励遵循一个过程。

马尔可夫过程:(无论是否是决策过程)未来仅取决于当前状态


image


马尔可夫链:马尔可夫过程中,指具有有限或可数无限状态空间的过程。

受控马尔可夫链:马尔可夫链+决策过程


스크린샷 2025-10-05 오전 2 11 59


MDP(马尔可夫决策过程):决策过程中,指未来仅取决于当前状态的情况。

动态规划:递推关系(打破时间依赖性)。如果说MDP指的是系统框架,那么【动态编程】(https://jb243.github.io/pages/721)指的是方法论。

POMDP(部分观察马尔可夫决策过程):只能使用部分信息而不是完整状态信息的 MDP 系统。

受约束的 MDP受约束的 POMDP 也存在。

○ 【相关算法】(https://jb243.github.io/pages/2162)

高斯过程:状态过程{Xt}使得任何有限子集服从联合高斯分布。

高斯-马尔可夫过程

条件 1. {Xt} 是高斯过程。

条件2. 马尔可夫性质: P(Xn+1 ∈ A ㅣ X0,…, Xn) = P(Xn+1 ∈ A ㅣ Xn)



3。随机控制理论定律

引理1. 在开环控制中,xt是x0、u0:t-1、w0:t-1的函数,yt是x0、u0:t-1、w0:t-1的函数, vt


스크린샷 2025-10-05 2 13 47


引理2. 开环系统与反馈系统

开环控制:ut := gt(y0:t, u0:t-1) = gt(u0:t-1)。

反馈控制:过去的输出 y0:t 影响控制动作 u 的情况。

③ 在DDS 下,开环系统和反馈系统是等效的。

○ 开环 → 反馈的证明:给定一个开环控制输入序列 u,定义一个忽略状态的反馈控制(即,在每个时间 t 返回预定 ut 的映射)。然后,从初始状态 x0 开始,它产生相同的轨迹和成本。因此,无论 DDS/SDS,对于任何开环都存在与初始状态等效的反馈策略。也就是说,开环 ⊂ 反馈始终成立。

○ 反馈证明 → 开环:在 DDS 中,所有控制输入都是唯一确定的(确定性)。因此,如果您预先指定相同的输入序列 u 作为开环策略,则结果的状态演化是相同的,成本也是相同的。

④ 在 SDS 下,开环系统和反馈系统并不等效。

反例1.


스크린샷 2025-10-05 2 14 49


○ 在上面的反例中,反馈系统优于开环系统(即,它产生较低的成本)。


스크린샷 2025-10-11 오후 5 44 43


引理 3. 策略独立性:如果 Wt 独立于 X0:t-1、U0:t-1,则 ℙ(xt+1g ∈ A ㅣ x0:t, u0:t) = ℙ(xt+1g ∈ A ㅣ xt, ut) = ℙ(ft(xt, ut, wt) ∈ A ㅣ xt, ut) (马尔可夫性质),因此对策略 g 的依赖消失了。


스크린샷 2025-10-05 2 16 25


① 在DDS中,如果知道当前状态,就可以立即知道下一个状态,但在SDS中,过去的状态很重要,因此历史的条件概率很重要。

② 即当wt独立时,系统演化遵循自然规律+纯噪声,因此策略无关;但如果 wt 取决于策略,则策略会改变噪声分布,因此未来的状态分布取决于策略。

哲学: 从哲学上讲,“政策独立”意味着基于个人价值评估的多元化判断是不可能的,选择受到事实决定的限制。

引理 4. 高斯过程 (GP)

①定义:状态过程{Xt}使得其任意有限子集服从联合高斯分布。

4-1. 即使每个 Xi 是高斯分布,也不意味着 {Xi}i∈ℕ 是 GP。

示例: X2 = X1 I{ㅣX1ㅣ ≤ k} + (-X1) I{ㅣX1ㅣ > k},Y = (X1 + X2) / 2 不是 GP。

4-2. 对于 Xt+1 = AXt + BUt + GWt,X0 ~ 𝒩(0, Σ0), Wt ~ 𝒩(0, Q),{Xt} 是 GP。

4-3. 根据反馈政策,{Xt} 通常不是 GP。

示例: 如果 Ut := gt(Yt) = gt(Xt) = Xt2,则 X1 = AX0 + BX02 + GW0,不是高斯分布。

○ 另一方面,在线性高斯 SDS 中,对于一般的开环策略,状态过程 {Xt} 始终是高斯的。

⑤(注)MMSE(最小均方估计量)


스크린샷 2025-10-05 9 49 29


⑥(注)正交原理


스크린샷 2025-10-05 오전 9 50 20


⑦(注)LMMSE(线性最小均方估计器)


스크린샷 2025-10-05 9 50 46


⑧ 如果 X 和 Y 共同为高斯分布,则 LMMSE = MMSE 成立。


스크린샷 2025-10-13 오후 7 55 13


引理5. 多步预测

① 一般来说, ℙ(xt+2g ∈ A ㅣ xt, ut, ut+1) ≠ ℙ(xt+2g ∈ A ㅣ x0:t, u0:t+1)


스크린샷 2025-10-05 오전 9 52 01


» ○ 证明: 让我们考虑 xt → ytutxt+1 → yt+1ut+1xt+2。由于与 u0:t-1 不独立的 ut+1 = gt(y0:t+1, u0:t) 意味着通过 xt+1 = f(xt, ut, wt) 有关 wt 的信息,因此对 ut+1 的条件作用打破了过去的独立性wt:这里的“过去”表示x0:t-1,u0:t-1

反例1. 在开环控制中,ut+1 = gt(u0:t)成立,因此它不能隐含有关wt的信息,因此等式成立。

反例2. 当wt为常数时

反例3. 当ut被定义为具有马尔可夫性质和无记忆反馈时,例如ut = μt(xt):则情况如下 yt = xt = ut


스크린샷 2025-10-05 9 54 51


② 开环控制多步预测


스크린샷 2025-10-05 오전 9 55 21


查普曼-柯尔莫哥洛夫分解


스크린샷 2025-10-05 9 55 47


引理 6. 线性高斯状态空间模型

①(注)高斯-马尔可夫过程

条件 1. {Xt} 是高斯过程。

条件2. 马尔可夫性质: P(Xn+1 ∈ A ㅣ X0,…, Xn) = P(Xn+1 ∈ A ㅣ Xn)

② 系统定义


스크린샷 2025-10-05 오전 9 57 08


○ 马尔可夫性质:即使有反馈策略也适用。


스크린샷 2025-10-05 9 57 35


○ 多步马尔可夫性质


스크린샷 2025-10-05 오전 9 58 08


○ 平均传播


스크린샷 2025-10-05 9 58 34


○ 互协方差 Cov(Xt+m, Xt)


스크린샷 2025-10-05 9 59 18


○ 协方差传播


스크린샷 2025-10-05 9 59 48


DALE(离散时间代数李亚普诺夫方程)

○ 如果方阵 A 的所有特征值(包括复数)的绝对值都小于 1,则该矩阵定义为稳定:因为 A = 0。

○ 若 A 稳定,则 Σ = limt→∞ Σt = limt→∞ 𝔼[(Xt - 𝔼[Xt])(Xt - 𝔼[Xt])ᵀ] 唯一存在。


스크린샷 2025-10-05 10 01 17


○ Σ唯一性证明


스크린샷 2025-10-11 오후 11 40 32


备注1. A 的稳定性是充分,但非必要条件。

○ 即使 A 不稳定,Σ 仍可能唯一存在。

○ 给出了一个简单的例子 Σ0 = 0, Q = 0,在这种情况下 Σk ≡ 0 独立于 A。(首先没有噪声。)

备注 2. Σ 可能不是严格正定的。

○ 一个简单的例子是 A = O,rank(GQGT) < n。 (噪音并未触及该州的所有方向。)

备注 3. 如果输入扰动 wk 影响状态向量的所有分量,则 A 的稳定性对于 Σk 的收敛是必要的,并且极限协方差 Σ 将是正定的 → 与可重复性的概念相关。

可达性

○ 定义:在有限时间内能否达到。与可控性和可观测性相关。


스크린샷 2025-10-05 10 02 24


定理 1. 以下都是等价的:假设 w ∈ ℝs


스크린샷 2025-10-05 10 02 54


○ 在条件 3 中,噪声序列 w 应解释为应用于系统的控制输入;由于它们,系统可以在 n 个时间步长内从 0 转向给定状态 x。

定理2. 李亚普诺夫稳定性检验


스크린샷 2025-10-05 10 03 34


○ 请注意,在条件 2 中,它是 PD(正定),而不是 PSD(正半定)。

引理7. 图论

① 强关联(= 不可约、可传播)

○ 从图中任意节点 i 可以到达任意其他节点 j 的条件。

○ 如果 j 从 j ∀i, j 可达,则马尔可夫链是不可约的。


스크린샷 2025-10-05 10 04 05

图 1. “不可约”的示例


스크린샷 2025-10-05 10 04 55

图 2. “可简化”示例(状态 3 是接收器)


② 周期:特定节点i的周期是从i返回i的所有路径长度的最大公约数

○ 示例:有两个节点 A、B,通过两条边 A=B 连接,每个节点的周期为 2。

○ 在给定适当的置换矩阵 Q 的情况下,当允许状态重排(例如 QTPQ)时,周期为 m 的转移矩阵应具有以下形式。


스크린샷 2025-10-05 10 05 44

图 3. 周期为 m 的转移矩阵示例

S1→S2→···→Sm→S1→···有这样一个循环。


③ 非周期:所有节点的周期为1。» ○ 对于不可约马尔可夫链,如果一个状态是非周期的,则所有状态都是非周期的。

○ 示例:如果每个节点都有一条到自身的路径,则它是非周期的。

④ 平稳状态:如果 Pr(xn ㅣ xn-1) 与 n 无关,则马尔可夫过程是平稳的(时不变的)。

⑤ 常规

○ 常规 ⊂ 不可缩减

○ 对于某个自然数 k,转移矩阵 M 的幂 Mk 的每个条目都是正数(即非零)。

⑥ 转移矩阵


스크린샷 2025-10-05 10 06 49


⑦ 马尔可夫策略:ut = gt(xt)

⑧ 利用马尔可夫过程可以证明热力学第二定律(熵增定律)。

○ 因为可以模拟扩散定律:假设有均匀平稳分布。

○ 相关概念:随机游走

Perron-Frobenius 定理

定理1. 如果具有转移矩阵P的有限马尔可夫链是强连通的,则恰好存在一个平稳分布q

○ 平稳分布满足 Pq = q

○ 示例:如果 P = I(单位矩阵) ε ℝ2×2,则它是可约的,因此对于所有 x ε [0, 1],存在无限多个 (x, 1-x) 形式的平稳分布。


스크린샷 2026-01-17 오후 2 27 57


定理 2. 如果具有转移矩阵 P 的 有限 马尔可夫链是强连通且非周期的,则称为 遍历马尔可夫链 并满足:

○ Pij:从节点 j 转移到节点 i 的概率。 Σi Pij = 1。注意,Pij 表示下面其他引理中从节点 i 转移到节点 j 的概率。

2-1. 当 k → ∞ 时,Pk 的 (i,j) 项 Pij(k) 收敛到 qi:请注意,对于固定 i,无论 j 如何,它都会收敛到相同的值。

2-2. 无论初始状态 x0 为何,第 k 状态 xk 都会随着 k → ∞ 收敛到 q


스크린샷 2025-10-12 오후 1 24 03


○ 示例:如果 P=((0,1),(1,0)),则它是周期性的(周期=2)。因此,存在唯一的平稳分布 π=(0.5,0.5),但 $\lim_{k\to\infty} p(k)$ 不会收敛到单一极限,而是分裂成两个子序列(例如,$p^{\text{even }k}=(1,0)$ 和 $p^{\text{odd }k}=(0,1)$)。


스크린샷 2026-01-17 오후 2 43 28


引理 8. 遵循确定性马尔可夫性质的值函数

① 预期成本和转移概率


스크린샷 2025-10-12 오후 1 52 21


递归和向后迭代:动态规划


스크린샷 2025-10-05 11 12 32


○ JTg ∈ ℝ1×1

○ π0 ε ℝ1×n:马尔可夫链的初始分布

○ V0g ε ℝn×1:收集政策 g 下每个状态的预期累积成本的状态价值函数向量» ○ 当 T = ∞ 时,Jg 变为无穷大,无法找到最优策略 g;由此,引入了贝尔曼方程、切萨罗极限概念。

贝尔曼方程 下面主要描述贴现成本问题。

○ (注)时间齐次:{xtg}t≥0 和 {xtg}t≥τ,∀τεℤ+ 遵循相同的分布。也意味着严格静止。


스크린샷 2025-10-07 1 34 29


条件 1. 时间齐次转变: Pt(j ㅣ i, u) = P(j ㅣ i, u) ∀t

条件 2. 时间同质成本:Ct(x, y) = C(x, y) ∀t

条件 3. 平稳策略:gt = g ∀t

○ 如果以上都成立,则可以得到下面的定点方程。


스크린샷 2025-10-05 10 10 36


○ Jg:成本的现值;一般用于经济领域。

○ 由于 Pg 稳定,所有特征值的绝对值均小于 1,因此 det(I - βPg) = β det((1/β)I - Pg) ≠ 0


스크린샷 2025-10-05 10 12 01


○ Vg ε ℝn×1:状态价值函数向量,收集政策 g 下每个状态的预期贴现累积成本


스크린샷 2025-10-05 10 12 57


○ Pg ∈ ℝn×n:转移矩阵; (i,j) 条目是从 i 转移到 j 的概率。

塞萨罗极限:与长期平均成本问题有关。


스크린샷 2025-10-05 10 13 39


泊松方程:与平均成本有关。


스크린샷 2025-10-05 10 14 13


○ Jg 是独一无二的。


스크린샷 2025-10-05 10 14 45


○ Lg:相对值函数。 Lg 不是唯一的( Lg + α1 ∀α ε ℝ 也是泊松方程的一个解)

○ 解的存在性


스크린샷 2025-10-05 10 15 31


引理 9. 当不是不可约时

① 如果 Pg 不是不可约的,则状态空间 S 分裂为瞬态 T 和一个或多个循环通信类 C1,…

② 瞬态:仅访问有限次。最终该过程离开瞬态并进入循环状态。

定理: 有限状态马尔可夫链的平稳分布 πg 将概率 0 分配给所有瞬态。


스크린샷 2025-10-07 오후 11 27 58


○ (i) 证明:鸽巢原理。有限性至关重要(并且需要使用)。»> ○ 假设某个暂态i满足Qi=0。由于循环通信类是一个闭集,因此一旦进程进入循环类,就不会与外部节点发生通信。因此,该假设意味着瞬态 i 对于所有 K 个转换仅转变为瞬态。因此,根据鸽巢原理,K+1 个鸽巢中至少有一个瞬态被访问两次(从开始算起),这会产生完全包含在瞬态集中的有向循环。这个循环是封闭的(在这 K 个步骤中没有边将其留给循环类),因此它形成了一个与给定循环类不相交的封闭通信类。在有限马尔可夫链中,每个封闭的通信类都是循环的;因此,我们产生了第二个循环类,这与唯一性假设相矛盾。因此,假设 Qi 为假,因此对于每个瞬态 i. Qi>0

○ (ii) 证明


스크린샷 2025-10-07 오후 11 28 44


③循环状态:由于循环通信类是闭集,因此不会与外部节点发生通信。

○ i → j:表示从 i 到 j 存在一条概率为正的路径。

○ i ↔︎ j:表示i → j 且j → i; i 和 j 进行交流。

○ 正循环:返回该状态的平均时间是有限的。

○ 以正循环状态开始的链具有独特的平稳分布。

○ 零循环:返回该状态的平均时间是无限的。不存在平稳分布。

示例: Xn+1 = Xn + ψn, X0 = 0, ℙ(ψn = +1) = ℙ(ψn = −1) = 0.5 → 返回原点的概率为 1,但期望时间为 Infini。

○ 吸收状态:一旦进入,就永远处于这种状态

例1. 静止状态集F


스크린샷 2025-10-12 오후 3 34 50


示例2. 有限状态空间

令 S = {0, 1, ···, I}。由于 Vg(0) = 0 且 C(0, g(0)) = 0,我们只能关注 Ś = S \ {0} = {1, ···, I},即非吸收态。令 Ṽg 为 Ś 中状态的值向量,并令 Rg 为 Pg 的子矩阵,用于 Ś 内状态之间的转换。 (即,描述链在达到 0 之前如何仅在非吸收状态之间移动的矩阵。)那么这些状态的方程组为 Ṽg = c̃ + Rgg。为了显示Ṽg的唯一性,假设有两个解Ṽ1g,Ṽ2g。设它们的差为 Ug = Ṽ1g - Ṽ2g;两个方程相减得到 Ug = RgUg = ⋯ = (Rg)nUg = ⋯ = 0 (∵ limn→Infini (Rg)n = 0,无限下降法)⇔ Ṽ1g = Ṽ2g。因此,在状态 0 为吸收且所有其他状态都可以达到 0 的有限状态空间中,首次通过时间成本方程具有唯一的非负解。

例3. 可数无限状态空间


스크린샷 2025-10-05 10 40 17

图4. 可数无限状态空间图


스크린샷 2025-10-14 오후 9 04 27


独特性并非微不足道。假设解是有界的通常可以显示出唯一性。考虑两个解之差的方程 Ug = RgUg。将其连接到图上可得出 Ug(ℓ+1) - Ug(ℓ) = (λ - 1)(Ug(ℓ) - Ug(ℓ-1))。连续差值 Δ(ℓ) = Ug(ℓ+1) - Ug(ℓ) 形成比率为 (λ - 1) 的几何序列。如果 |λ - 1| < 1,这些差异收敛于 0,表明有界解。如果 |λ - 1| ≥ 1,差异可能会发散,这意味着唯一性可能会失败。

引理 10. Martingale

杜布定理

○ σ(X1, X2, ···, Xn):使 X1, X2, ···, Xn 可测量的最小 σ 代数。

○ Doob 定理:σ(X1, X2, ···, Xn) 等价于 g(X1, X2, ···, Xn) 形式的所有函数的集合。

○ σ 代数越大,可测量的函数就越多;即它包含的信息越多。

② 过滤

○ 按包含顺序递增的 σ 代数集合。

○ 按 ⊆ 排序;如果 ℱ1 ⊆ ℱ2,则 ℱ2 之后是相对于 ℱ1 的。

○ 为了方便起见,令时间索引 t = 0, 1, 2, ⋯;则过滤为 {ℱt}t∈ℤ+ 并且对于所有 s ≤ t 满足 ℱs ⊆ ℱt

○ 直觉:代表信息随着观察的积累而增加的情况。

○ 条件期望的性质

○ 对于任意随机变量 Y,𝔼[Y ㅣ X1, ···, Xn] = 𝔼[Y ㅣ σ(X1, ···, Xn)] 成立。

○ 原因:因为 σ(X1, ···, Xn) 等价于 X1, ···, Xn 生成的所有函数的集合。

○ 另外,当 σ(Y) ⊂ σ(Z) 时,𝔼[𝔼[X ㅣ Z] ㅣ Y] = 𝔼[𝔼[X ㅣ Y] ㅣ Z] = 𝔼[X ㅣ Y]成立。

○ Martingale:随机过程 {Xt}t∈ℤ+ 适应过滤 {ℱt}t∈ℤ+ 满足以下所有条件

条件 1. Xt 对于所有 t ∈ ℤ+ 是 ℱt 可测量的。

○ 如果 s ≤ t ≤ s′ 且 ℱs​ ⊆ ℱt ⊆ ℱs′,则 Xt ∈ ℱt 不是 ℱs 可测(由于信息不足),而是ℱs′-可测量。

条件 2. 𝔼[ㅣXtㅣ] 对于所有 t ∈ ℤ+ 都是有限的。

条件 3. 𝔼[Xt ㅣ ℱs] = Xs,几乎可以肯定,对于所有 s ≤ t 且所有 t ∈ ℤ+

解释: 仅给定时间 s (ℱs) 之前的信息,Xt 的最优预测等于 Xs(即,预测被限制为 Xs;𝔼[Xt ㅣ ℱs] 是Xt 进入 ℱs 可测量随机变量空间(“最佳预测”))。

备注: 仅当根据过去预测未来时才需要鞅性质。特别是,对于 s > t,无论 Xt 是否是鞅(假设可积),我们都有 𝔼[Xt ㅣ ℱs] = Xt。»» ○ 对于 s < t,𝔼[Xs ㅣ ℱt] = Xs 也成立,因为 Xs 是 ℱs 可测的,但由于 ℱs ⊆ ℱt 信息不足。

○ 注意:i.i.d.过程通常不是鞅(常数过程除外)。

○ 应用:𝔼[Ug(Xtg) ㅣ Xt-1g] = Ug(Xt-1g)

④ 鞅与随机控制理论


스크린샷 2025-10-15 11 58 24


引理 11. (Fully observed) ― 最优策略

① 问题定义:完美观察下的cost-to-go函数。由于控制输入 {Ut, …, U1} 可以通过 {Xt, …, X0} 测量,因此以下公式成立:


스크린샷 2025-10-07 오후 1 59 08


② 遵循马尔可夫性质,贝尔曼方程成立。这里,Jtg,VtgM(Xt)是从t到未来的成本。


스크린샷 2025-10-07 오후 2 01 58


马尔可夫化定理(马尔可夫政策充分性,还原为马尔可夫政策)

定理: 在有限范围 MDP 中,对于任何一般(可能依赖历史和随机)策略 g,都存在一个行为马尔可夫策略 gM,使得在相同的初始分布 μ 下,所有 t = 0, …, T−1 和 XT 的 (Xt, Ut) 联合分布是相同的。因此,性能(成本)Jg = 𝔼gt=0 to T−1 Ct(Xt, Ut) + CT(XT)] 等于 JgM。因此,在不损失最优性的情况下,人们可以将注意力限制在随机马尔可夫策略上。


스크린샷 2025-11-21 오후 4 11 38


证明


스크린샷 2025-10-10 1 54 36


比较原理

定理: 通过从目标向后推导并确保贝尔曼不等式在每一步都成立,初始值 V0 作为所有可能政策性能的下界。在每个阶段实现平等的一系列行动共同构成了最优政策。因此,可以通过组合局部最优(阶段式)选择来验证或构造最优性。


스크린샷 2025-10-07 오후 2 03 17


○ 证明:使用【数学归纳法】(https://www.youtube.com/watch?v=t9RBuyBmFdQ) 向后推导

情况 1. t = T: 由于 JTg = 𝔼g[CT(XTg) ㅣ XTg, …, X1g, X0] = CT(XTg) ≥ VT(XTg) (∵ (V1)) 成立,归纳假设仍然成立。

情况 2. 如果归纳假设建立在 ℓ = t+1, …, T 上,则该假设对于 ℓ = t 仍然成立,可以验证如下:


스크린샷 2025-10-07 오후 2 06 19


○ 推论


스크린샷 2025-10-07 오후 2 06 44


哈密尔顿-雅可比-贝尔曼 (HJB) 方程

○ 定理:HJB 适用于有限/可数无限、状态/动作空间。贝尔曼方程的连续时间版本。


스크린샷 2025-10-07 오후 2 07 21


定理1的证明已在比较原理中给出,因此以下解释仅与定理2相关。

○ p:某个马尔可夫策略 gM = {gt} 是最优的。

○ q: 给定 ∀x, t, gt(x) ∈ arg infuε𝒰 {ct(x, u) + 𝔼Wt[Vt+1(ft(x, u, Wt))]} (即实现逐步贝尔曼最小化)

定理 2 (q ⇒ p) 的充分性证明:当每个阶段给出 xt 时,任何满足下确界的策略都是最优的(∵推论)。那么,ut应该是当前状态xt的可测函数,最优策略应该是马尔可夫策略。


스크린샷 2025-10-12 오후 5 29 43


定理 2 的必要性证明 (p ⇒ q):如果一个策略是最优马尔可夫策略,它应该在每个阶段实现下确界 (w.p.1);否则,我们可以构造一个具有正概率集的更好的策略 g’,这意味着 J(g’) < J(g)。


스크린샷 2025-10-14 오후 6 28 01

스크린샷 2025-10-14 오후 6 28 52


○ 推论


스크린샷 2025-11-09 오전 1 18 06


应用1. 如果1→6的最优路径为1→2→3→6,则根据HJB方程,2→6的最优路径应为2→3→6。

应用 2. 政策评估:下面讨论。

应用3. 由HJB方程得到的Vt(x)称为价值函数。它有效地减少了搜索空间的大小。

应用 4. Q 值(状态-动作值函数): Qt(x, u) = Ct(x, u) + 𝔼Wt[Vt+1(ft(x, u, Wt))], Vt(x) = infuε𝒰 Qt(x, u)

应用5. 对于给定的有限状态/动作空间,inf = min,最优策略是确定性马尔可夫策略。


스크린샷 2025-10-14 오후 6 32 30


应用 6. 随机马尔可夫策略下的价值函数:对于 u ~ μt(u ㅣ i),


스크린샷 2025-10-14 오후 6 32 46


⑥(注)【布莱克威尔无关信息原则】(https://projecteuclid.org/journals/annals-of-mathematical-statistics/volume-35/issue-2/Memoryless-Strategies-in-Finite-Stage-Dynamic-Programming/10.1214/aoms/1177703586.full)» ○ 如果 Y 独立于状态并且不直接出现在奖励中,则 Y 与决策无关:忽略 y 的决策规则总是至少一样好。换句话说,拥有更多信息并不总是更好。


스크린샷 2025-11-21 오후 3 41 29


示例: 假设医生必须决定患者的治疗方案。每天早上,医生可以观察患者的健康状况X,此外还知道今天是星期几Y。可用的操作是“治疗”和“不治疗”。如果一周中的某一天与预期奖励(生存概率)和健康状况无关,则仅根据 X 做出决策会产生与同时使用 X 和 Y 相同的预期生存概率。

○ 然而,根据动作空间和可测性等技术假设,该陈述可能需要用ε-最优策略来制定,并且当涉及可数/不可数和可测性陷阱时(例如Borel集的投影可以是非Borel),存在全局近似优势失败的反例。

结论: 在动态规划问题中,可以从数学上证明无记忆策略足以优化预期奖励。

应用: 在有限视野马尔可夫决策问题中,可以轻松证明马尔可夫策略是最优的。 ([参考](https://infostructuralist.wordpress.com/2010/11/08/deadly-ninja-weapons-blackwells-principle-of-irrelevant-information/))

引理 12. (Partially observed) ― 信息状态

① {zt}t={0,…,T} 满足以下给定的部分观察上下文

○ 背景:历史 Ht := {y0, …, yt, u0, …, ut-1} 随着时间的推移而增加,其域呈指数增长。 (维度的诅咒)

条件 1. 压缩: zt = ℓt(Ht) ∀t

条件 2. 政策/策略独立:zt+1 = 𝒯t(zt, yt+1, ut) (当前状态,新信息)也就是说,zt可以使用当前状态和新信息递归更新,而不需要直接引用整个过去的历史。

条件 3. 相对于 g0:t-1 的独立性:∀t = 0, …, T-1


스크린샷 2025-10-23 오후 8 10 21


条件 1. zt = Ht := {y0, …, yt, u0, …, ut-1}

○ π0(i) 如下:


스크린샷 2025-10-23 오후 8 11 24


候选人 2. 信念状态:zt = πt s.t. πt(i) := ℙ(Xt = i ㅣ Ht) = ℙ(Xt = i ㅣ y0:t, u0:t-1) ∀i ∈ S

满足条件 1:时间上的 zt = ℓt(Ht)(压缩)

满足条件2:直接利用贝叶斯法则可以得到满足 πt+1 = 𝒯tt, yt+1, ut) 的𝒯t。这是置信状态的更新方程,通常称为非线性滤波器。


스크린샷 2025-10-23 오후 8 15 21


满足条件3:使用逆向数学归纳法

情况 1. t = T-1:所有项都不依赖于 g0:T-1


스크린샷 2025-10-24 오전 9 58 09


情况 2. 后向归纳法可以建立如下:


스크린샷 2025-10-24 10 22 35


贝尔曼信念方程-MDP: 该定理的关键信息是,尽管 MDP 的整体策略空间 𝒢 包含从历史到行动的所有映射,因此非常大,但信念 Πt 是足够的,因此我们通过将注意力限制在“信念 → 行动”形式的分离策略上,不会失去最优性。


스크린샷 2025-10-24 10 31 26


○ 证明


스크린샷 2025-10-29 10 21 30


应用1.(单向)分离定理


스크린샷 2025-10-24 오전 11 10 57


应用2. 置信空间中的成本函数


스크린샷 2025-10-24 11 11 17


应用 3. 与信念状态不同,以下内容依赖于策略,因为它依赖于 gt-1


스크린샷 2025-10-24 11 11 34


应用 4. 与信念状态不同,以下是依赖于策略的:因为如果不包括 ut 作为条件 πt+1 = 𝔼ut ~ p(· ㅣ Y0:t) [𝒯tt, yt+1, ut)] 成立,因此信息状态转换受策略影响。


스크린샷 2025-10-24 11 11 51


应用 5. 一般来说,Pg(Xt+1 ∈ A ㅣ Ht, ut) ≠ Pg(Xt+1 ∈ A ㅣ yt, ut), Ht = (Y0:t、U0:t-1)»> ○ 证明: 假设 t = 1。我们考虑 x0 → y0 → u0 → x1 → y1 → u1 → x2 → ⋯。给定 H1 = (y0:1, u0),我们可以通过 y0 → x0 确定 x0 的分布。因此,我们可以通过 y1 → x1 和 (x0, u0) → x1 更准确地确定 x1 的分布。之后,我们可以通过x1、u1、w1确定x2的分布。然而,在右侧,我们只能使用 y1 → x1 以及 u1 的有限信息来确定 x1 的分布,导致 x2 的分布不太准确。因此,双方意见不一。

应用 6. Pg(Xt+1 A ㅣ Ht, ut) = Pg(Xt+1 A ㅣ y0:t, ut)

证明: 让我们考虑 x0 → y0 → u0 → x1 → y1 → u1 → x2 → ⋯。给定策略 g,在右侧,我们可以分别通过 y0 → u0 和 y0 → x0 确定 u0 和 x0 的分布。因此,我们可以通过 (x0, u0) → x1 来确定 x1 的分布。现在利用 ut = gt(y0:t, u0:t-1) 和 xt+1 = ft(xt, ut, wt) ,我们可以确定所有变量的分布,从而彻底得到 xt+1 的分布。从左侧看是一样的。

结论: 信息状态 Ztg := (Y0:tg, U0:t-1g) 是 Y0:tg 的函数。

应用 7. P(Xt+1 ∈ A ㅣ Ht, ut) ≠ P(Xt+1 ∈ A ㅣ y0:t, ut)

证明: 让我们考虑 x0 → y0 → u0 → x1 → y1 → u1 → x2 → ⋯。在右侧,我们可以通过 y0 → x0 确定 x0 的分布,但只能在策略集的概率上通过 y0 → u0 确定 u0 的分布。然而,u0 恰好在左侧给出。因此,双方意见不一。我们可以得出结论,Pg(Xt+1 ∈ A ㅣ Ht, ut) 是策略无关的,而 Pg(Xt+1 ∈ A ㅣ y0:t, ut) 是策略依赖的。

引理 13. 动态规划

① 如果 Vt(i) = max{r(i), a + bΣj∈S ℙ(j ㅣ i) Vt+1(j)} = max{r(i), a + b𝔼[Vt+1(j) ㅣ i]}, Vt(i) ≥ Vt+1(i)成立。

② 如果 Vt(x) = max{-c + p(x)(1 + Vt+1(x-1)) + (1 - p(x))Vt+1(x), Vt+1(x)}, VN+1(x) = 0,则成立:

时间上的单调性: Vt(x) ≥ Vt+1(x) (证明)

x 上的单调性: Vt(x) ≥ Vt(x-1) (证明)

边际值的上限值: 1 ≥ Vt(x) - Vt(x-1) (证明)

x 上的凹性不成立: Vt(x) - Vt(x-1) ≤ Vt(x-1) - Vt(x-2) (存在反例)» ○ 边际价值与时间的关系: Vt(x) - Vt(x-1) ≥ Vt+1(x) - Vt+1(x-1) (证明)

阈值的存在: Gt(x) = p(x)(1 - Δt+1(x)) 在 x 上是非递减的(证明

③ 凸面

引理 1. 给定两个凸函数 f1 和 f2,max{f1, f2} 也是凸函数。


image

图 5. 两个凸函数的最大值是凸函数。


引理 2. 两个凸函数之和是凸函数。


스크린샷 2025-11-03 12 41 32


引理 3. 如果 V(x) 是非减凸函数,则 V(max{x, a}), ∀a 也是凸凸函数:在几何上很容易理解。

引理 4. 若 L(π) 为凸函数,则 L(π)=supi∈Ii π + βi}, αi, βi ε ℝ 成立。

○ 以上来自不等式 f(x) ≥ f(x0) + f’(x0)(x - x0);这并不是说该公式适用于任意选择 αi 和 βi

○ 示例:如果 L(π) = π2,则 π2 = superx0εℝ {2x0π - x02}。

○ 实用点:使用在线性(仿射)表示中保留凸性的变换,可以表明对原始凸函数应用相同的变换也可以保留凸性。示例如下。


스크린샷 2025-11-08 오후 3 02 29


引理14. (Stochastic policy) DCOE(贴现成本最优方程,无限范围贴现成本贝尔曼方程)

①【Banach不动点定理】(https://jb243.github.io/pages/1827)

定理

○ 设 F 为 Banach 空间。这里,Banach空间是指完全赋范空间,集合“完备”意味着集合中的每个柯西序列都收敛于集合中的某个元素。令 T: F → F 为满足以下关系的变换:ㅣㅣTx - Tyㅣㅣ ≤ βㅣㅣx - yㅣㅣ,∃β ∈ (0,1),∀x, y ∈ F。则有:

○ 存在唯一不动点 w ∈ F 满足 Tw = w。

○ 对于任意 x ∈ X,limn→∞ Tnx = w。

○ 这本质上意味着以下内容:

○ 满足上述条件的变换称为收缩。严格来说,它要求sup β(x, y) < 1。

○ T 是连续的,具体来说是 Lipschitz 连续的。

证明

○ 令 x ∈ F, α = ㅣㅣx - Txㅣㅣ。那么,我们有ㅣㅣTnx - Tn+1xㅣㅣ ≤ βnα。如果我们设置 {x, Tx, T2x, ···} 的柯西序列,我们可以得到: ∀ϵ > 0, ∃Nϵ s.t。 ∀n, m ≥ Nϵ, ㅣㅣTnx - Tmxㅣㅣ < ϵ。不失一般性,我们可以设置n>m。那么,我们有


스크린샷 2025-11-02 8 23 50


»> ○ 因此,我们有 N 服从 αβN / (1 - β) < ϵ。由于 F 是 Banach 空间,因此 w 服从 limn→∞ Tnx = w。由于 T(limn→∞ Tnx) = Tx = limn→∞ Tn+1x = w,所以 w 是一个不动点。如果我们将 w1、w2 设置为 T 的不动点,则有 ㅣㅣw1 - w2ㅣㅣ = ㅣㅣTw1 - Tw2ㅣㅣ = ⋯ = ㅣㅣTnw1 - Tnw2ㅣㅣ = ⋯ = 0,因此 w1 和 w2 相同。

直觉



②贝尔曼算子和收缩定理

定理

○ 令 F 为一组函数,例如 F = {z: S → ℝ}。这里,S = {1, 2, ···, I} 且 z := (z(1), ···, z(I))T。让我们定义以下范数: ㅣㅣzㅣㅣ = maxi ㅣz(i)ㅣ(即ㅣㅣ·ㅣㅣ) 让我们为每个分量定义运算符 T: F → F。然后,对于所有 i ∈ S,我们有 Tz(i) = minuε𝒰 [C(i, u) + βΣjεS ℙ(j ㅣ i, u) z(j)]。那么,T就是收缩映射。

证明

○ 令 ℝI 为范数为ㅣㅣ·ㅣㅣ 的 Banach 空间。若z,y ∈ F,则可证明定理如下:


스크린샷 2025-11-04 오후 5 30 19


○ 即使我们用成本最大化的特殊定义替换它,收缩定理在相同的证明结构下仍然成立。

③ 推论

○ ∀i ∈ S, W(i) = minuε𝒰 C(i, u) + βΣjεS ℙ(j ㅣ i, u) W(i) 有 w 的唯一解。

○ DCOE与几何分布的关系


스크린샷 2025-11-21 오후 5 20 09


○ W(i) = infgε𝒢 Jg(i) = infgε𝒢 𝔼gt=0 到 ∞ βtc(xt, ut) ㅣ X0 = i], ∀i ∈ S

○ Jg(i) 和有界的定义


스크린샷 2025-11-09 오후 5 28 13


○ W的定义:根据收缩映射的性质,递减序列{Wn}收敛于W


스크린샷 2025-11-09 오후 5 28 41


○ Jg(i) ≥ W(下界)


스크린샷 2025-11-09 오후 5 29 15


○ W(i) ≥ infg Jg(i)(上界):可表示为 J(X0, π*) ≤ Στ=0 to t-1 βτ Cτ(Xτ, πτ*) + βt𝔼[Vt(Xt, πt)]。


스크린샷 2025-11-09 오후 5 29 56


结论: W(i) = infg Jg(i)

○ 最优平稳马尔可夫策略 g*(i) ε argminuε𝒢 c(i, u) + βΣjεS ℙ(j ㅣ i, u)V(j)

⇔ W = cg* + βPg*w» ⇔ W = (I - βPg*)-1 cg*

○ 最优算子T定义如下:


스크린샷 2025-11-21 오후 5 24 14


○ 根据定义,TZ ≤ TgZ

○ Tg 和 T 都是 ℓ 范数上的收缩映射。

○ Tg 和 T 都满足单调性:如果 z ≤ y,则 Tgz ≤ Tgy 且 Tz ≤ Ty

○ 证明1


스크린샷 2025-11-21 오후 9 02 06


○ 证明2


스크린샷 2025-11-21 오후 5 26 27


○ 若 h, g ∈ 𝒢SMP,且 ThWg ≤ Wg,Wh ≤ Wg 成立: ThnWg ≤ ⋯ ≤ ThWg ≤ Wg;然后,我们可以将n设为无穷大来得到结论。

算法1. 值迭代

○ 通过重复应用贝尔曼最优算子 T 来更新价值函数的方法,即 Vk+1 = TVk

○ 由于收缩映射性质,如果 β < 1,则 Vk → V* 收敛到唯一不动点,并且相对于 V* 的贪心策略是最优的。

○ 典型的停止标准是ㅣㅣVk+1 - Vkㅣㅣ < ε 等。

特点: 优点是计算简单,缺点是需要多次迭代。

算法2. 策略迭代

步骤 1. 选择任意平稳马尔可夫策略 gn ∈ 𝒢SMP

步骤 2. 策略评估: 计算 Wgn = (I - βPgn)-1Cgn

步骤3. 停止准则:如果TWgn = Wgn,停止并以gn为最优策略;否则请转至步骤 4

步骤4. 策略改进:定义gn+1如下。


스크린샷 2025-11-21 오후 5 40 20


定理: 序列 ({g0, g1, g2, …}) 经过有限多次迭代后达到最优策略。

证明: 当停止条件 Wgn = TWgn 成立时,gn 已经是最优策略。否则,在步骤 4 中,我们有 Tgn+1 Wgn ≤ Wgn,并且至少有一个状态是严格不等式的。由于可能的策略数量是有限的(ㅣUㅣㅣSㅣ),并且每一步的成本都会严格改善(至少在一个状态下),因此无法重新审视相同的策略。因此,该算法通过有限多个步骤达到停止条件并产生最优策略。

特点: 它的优点是需要迭代次数少得多,但每次迭代时必须在两个算子之间交替(策略评估(由于逆矩阵计算更昂贵)和策略改进)。

算法3. 线性规划

定理


스크린샷 2025-11-21 오후 5 45 43


证明


스크린샷 2025-11-21 오후 5 46 25

实现: 拉格朗日乘子法,双最优变量。


스크린샷 2025-11-21 오후 5 47 24


引理15. (Stochastic policy) ACOE(平均成本最优方程,无限范围平均成本贝尔曼方程)

① 概述

○ 对于有限状态空间、有限动作空间和有界成本函数,定义 Jg 如下:


스크린샷 2025-11-21 오후 5 50 30


○ 在不可约马尔可夫链中,考虑泊松方程 Jg1 + Wg = Cg + PgWg

○ 如果 Wg 是解,则 Wg + α1 也是任意常数 α 的解,但 Wg 是唯一确定的,直到该可加常数。

ACOE 的推导:相对值函数 WN(i) - WN(j) 收敛,N → ∞,对应 W(i) - W(j)。


스크린샷 2025-11-21 오후 5 52 51


意义1. J* 是最优成本。

意义2. 最优SMP g* 必须满足ACOE。

○ 假设最优策略 g* 给出如下,并假设该等式对于某些状态 i 不成立。


스크린샷 2025-11-21 오후 5 56 46


○ 那么矛盾就出现了,因为g*失去了最优性,因此最优的g*必须满足ACOE。


스크린샷 2025-11-21 오후 5 57 32


意义3. 我们可以使用策略迭代。

算法1. 策略迭代算法

步骤 1. 选择任意策略 g0 ∈ 𝒢SMP

步骤2. 策略评估: 给定gn,求解以下泊松方程得到(Jgn, Wgn)。由于我们有 I 个方程,但有 (I+1) 个未知数(Jgn、Wgn(1)、…、Wgn(I)),我们固定一个分量,例如设 Wgn(I) = 0),唯一确定 Jgn1 + Wgn = Cgn + 的解PgnWgn

步骤3. 停止标准: 如果gn 满足ACOE,则gn 是最优SMP。否则,请转到步骤 4。 ACOE: Jgn + Wgn(i) = minuε𝒰 {C(i, u) + ΣjεS P(j ㅣ i, u)Wgn(j)}, ∀i

步骤4. 策略改进:通过 gn+1 ε arg minuε𝒰 {C(i, u) + ΣjεS P(j ㅣ i, u)Wgn(j)} 定义新策略 gn+1 并返回步骤2

○ 如果 gn 不满足停止准则,则 Jgn+1 < Jgn 成立。


스크린샷 2025-11-21 오후 6 05 31


算法2. ACOE和相对值迭代

○ 假设:对于每个 g ∈ 𝒢SMP,转移矩阵 Pg 是不可约且非周期的。

步骤 1. 选择任意 h0 ∈ ℝI

步骤 2. 对于任意 k ≥ 1,

○ ∀i ∈ S, λk(i) = minuε𝒰 {C(i, u) + ΣjεS P(j ㅣ i, u)hk-1(j)}

○ μk = λk(I) 对于某些固定参考状态 I

○ ∀i ∈ S, hk(i) = λk(i) - μk

步骤3. 检查收敛性;如果不收敛,则返回步骤2

○ 那么μk收敛到J*,hk收敛到W(相对值函数)。

④其他算法

○ 线性规划:如果没有最大值条件,由于 ≤ 不等式(这是比取最小值更强的条件),J* 可以下降到 −∞。


스크린샷 2025-11-22 오후 12 08 56


○ 逐次逼近


스크린샷 2025-11-21 오후 6 10 32


○ Bertsekas 算法

○ Puterman 算法

⑤ MDS(鞅差分序列)

概述: 对于具体样本路径(随机变量),我们要证明 lim infN→∞ ĴNg(ω) 对于每个 g 几乎肯定 (a.s.) 如下,并且 limN→∞ ĴNg*(ω) = J*如(假设 g* 是最优的)


스크린샷 2025-11-21 오후 6 13 35


定理 1. 让 {Xk}kεℕ 适应过滤 {ℱk}kεℕ 并几乎肯定满足 𝔼[Xk+1 ㅣ ℱk] = 0。那么 Xk 和 Yk = Σj=1 到 k Xj 是 ℱk 可测的。

定理2. 鞅稳定性定理(LLN)


스크린샷 2025-11-21 오후 6 16 05


定理 3. 对于任意 g ε 𝒢,limN→∞ inf (1/N) Σt=0 到 N-1 C(Xtg, Utg) ≥ J* a.s.成立,如果等式成立,则 g* 满足 ACOE。

○ 令 (J*, W) 为 ACOE 的解。定义 Zk+1 = C(Xk, Uk) - J* + W(Xk+1) - W(Xk) - h(Xk, Uk) 和 h(i, u) = C(i, u) + Σj∈S P(j ㅣ i, u)W(j) - J* - W(i) ≥ 0。设 ℱk = σ(X0, X1g, ···, Xkg)。然后,给定 Ukg = gk(X0, X1g, ···, Xkg),我们得到 𝔼[Zk+1 ㅣ ℱk] = 0如下:


스크린샷 2025-11-21 오후 6 21 44


○ 因此 {Zk}k∈ℕ 是一个 MDS,并且 Zk+1 的每一项都是有界的,因此 Zk+1 相对于 M̃ 有界。因此,


스크린샷 2025-11-21 오후 6 22 51

○ 成立,根据 LLN,我们有 limN→∞ (1/N)Σk=1 to N Zk = 0 a.s.但是


스크린샷 2025-11-21 오후 6 23 51


○ 成立且 h(·,·) ≥ 0,因此我们有 limN→∞ inf (1/N) Σt=0 到 N-1 C(Xtg, Utg) ≥ J* a.s.

定理: 当 β → 1 时,DCOE 问题与 ACOE 问题等价。


스크린샷 2025-11-21 오후 6 25 12


○ 上述证明中ㅣWβ(i) - Wβ(j)ㅣ < ∞ 的原因。

○ 定理


스크린샷 2025-11-21 오후 6 26 04


○ 上限


스크린샷 2025-11-21 오후 6 26 28


○ 下限


스크린샷 2025-11-21 오후 6 26 55


○ 一般证明


스크린샷 2025-11-24 10 37 23


意义 1. 最优策略 gβ* 不一定收敛于最优 ACOE 策略 g*。

显着性 2. Blackwell 最优性:如果相同的策略 gβ* 对于所有 β̂ < β < 1 的 β 都是最优的,那么 gβ* 对于 ACOE 也是最优的。那么,Jβ* = ACOE 最优 J* 也成立。

证明1.


스크린샷 2025-11-22 오후 12 40 24


证明 2. 在经典的 Blackwell 论证中,您可以通过将两个固定策略 π 和 ν 作为贴现因子函数 fπ,ν(γ) = Vγπ − Vγν 的函数来比较两个固定策略 π 和 ν。在标准有限 MDP 中,这种差异是 γ 的有理函数,非零有理函数只能有有限多个零。这意味着只有有限多个贴现因子 γ 可以使这两种策略相互关联;超出这些点,它们的排名不能像 γ → 1 那样无限频繁地翻转。因此,对于所有足够接近 1 的 γ,相同的策略仍然是最优的,并且该策略对于平均奖励标准也是最优的;这就是布莱克威尔最优策略。

引理 16. 卡尔曼滤波器

① 概述

情况 1. 纯预测问题 (Ut ≡ 0):卡尔曼滤波器。给定 Y0,…,Yt,问题是预测 X0,…,Xt

情况 2. 纯控制问题 (Yt = Xt):LQR(线性二次调节器)

情况 3. 具有二次成本的部分观测:LQG(线性二次高斯)。

② 回顾:线性高斯过程


스크린샷 2025-11-21 오후 6 30 06


情况 1. ut ≡ 0 或 Bt = 0

步骤 1. 预测


스크린샷 2025-11-21 오후 6 30 32


步骤2. 观测预测


스크린샷 2025-11-21 오후 6 30 56


步骤3. 数据更新


스크린샷 2025-11-21 오후 6 31 29


意义: 从Lt的形式来看,滤波器是确定性的、非线性的。

应用: 卡尔曼滤波器的渐近行为

定义: 在时不变情况下 At ≡ A, Gt ≡ G, Ct ≡ C, Ht ≡ H。

背景理论: 在讨论卡尔曼滤波器的渐近行为时出现可观性的原因是,为了构造一个长期稳定的观测器,系统必须至少是可观的,或者更一般地说,满足可观性。如果存在不可观测模式,则无法使用测量来校正该方向的状态分量。特别是,如果这样的模式不稳定(即,其特征值位于单位圆之外),则无法从输出推断其贡献,并且该方向上的估计误差随着时间的推移而无限制地增长。因此,误差协方差 Pk 也沿着该方向发散,因此 Riccati 递归不会收敛到有限极限 P,并且观测器误差无法稳定。因此,为了保证卡尔曼滤波器良好的渐近行为(例如误差协方差的收敛、恒定的稳态卡尔曼增益和稳定的估计),所有不稳定模式都是可观测的,即 (A,C) 对是可观测的,这一点至关重要。

○ “Observable”、“Detectabile”和“reachable”具有相同的含义。


스크린샷 2025-11-21 오후 6 33 18


○ ARE(代数 Riccati 方程)


스크린샷 2025-11-21 오후 6 33 43


○ 如果 (A,S) 可达,则以下等价: A 稳定。 ⇔ 方程 Σ = AΣA* + SS* 有正定解 Σ。 ⇔ 推论


스크린샷 2025-11-21 오후 6 34 29


情况 2. 任意 ut = gt(Ht) = gt(y0:t, u0:t-1) 和任意 Ct(xt, ut)


스크린샷 2025-11-27 오후 4 12 13


结果 1. (y0:tg, u0:t-1g) 和 y0:t 是相同的 σ 代数:每个都是彼此的函数

(y0:tg, u0:t-1g) → y0:t 证明: u0g = g0(y0g) = g0(y0 + ş0g) 和 y0 = y0g - c00g = y0g - C0𝔼[x0]。 x̄1g = A00g + B0u0g,所以 ş1g = C11g,导致 y1 = y1g - ş1g。所以,我们可以这样构造 y0:t 。»> ○ y0:t → (y0:tg, u0:t-1g) 证明: 让我们考虑 x0 → y0 → u0 → x1 → y1 → u1 → x2 → ⋯。 ų0g = c00g 已知。 y0g = y0 + ş0g 是已知的,u0g = g0(y0g) 也是已知的。那么, x̄1g = A00g + B0u0g 是已知的,我们也知道 ş1g = c11g 和 y1g = y1 + ş1g。因此,u1g = g1(y0:1g, y0g) 是已知的。因此,命题可以这样证明。

○ 这与前一个命题相关:Pg(Xt+1 ∈ A ㅣ Ht, ut) = Pg(Xt+1 ∈ A ㅣ y0:t, ut)。

结果 2. πt = ℙ(xtg ㅣ y0:tg, u0:t-1g) = ℙ(xtg ㅣ y0:t)

结果 3. ℙ(xt ㅣ y0:t) (= 卡尔曼滤波器) 足以理解系统。

备注 1. 控制仅影响 x̄tg(均值),而不影响 Σtㅣt(方差)。

备注 2. 与一般 POMDP 不同,它不需要学习(主动探索)来减少方差。

备注3. 分离原理:卡尔曼滤波器和控制可以分开。

⑤ 动态规划


스크린샷 2025-11-27 오후 4 24 42


⑥ 二次成本

○ 假设: Ct(xt, ut) = xt*Ptxt + ut*Ttut, CT(xT) = xT*PTxT

○ 令 X ~ 𝒩(X̄, Σ) 和 S 为对称矩阵,则有 𝔼[X*SX] = X̄*SX̄ + Tr(SΣ)。


스크린샷 2025-11-27 오후 4 26 42


○ LQG问题的解决方案


스크린샷 2025-11-27 오후 4 27 21


○ 证明


스크린샷 2025-11-27 오후 4 27 41


备注1. 确定性等价控制:最优控制策略中不出现噪声项{wt}和{vt}。

备注2. 分离原理:通过卡尔曼滤波器进行前向估计,通过求解LQR问题进行控制动作的后向计算。

备注 3. 如果 Σtㅣt ≡ 0,则 st ≡ 0。

⑦ 二次成本和ACOE


스크린샷 2025-11-27 오후 4 29 19



引理 17. MAB(多臂老虎机)


스크린샷 2025-12-30 오후 9 33 05

图 6. MAB


① 公式

○ 前提:N 个随机过程 (Xkn)k=0,1,…; n=1,2,……

○ 状态集:S = {1, 2, ···, I} 或可数无限集» ○ 动作集:uk ∈ {1, 2, ···, N}

○ 转换规则


스크린샷 2025-12-26 오후 5 12 59


目标: 我们想要一个最优策略,使得supg∈𝒢 𝔼gk=0 to ∞ βkR(xkuk)]。

动态规划: W(x1, x2, ···, xN), xi ∈ S(sN) = maxu∈{1, 2, ···, N} R(xu) + βΣj=1至 I P(j ㅣ xu)W(x1, x2, ···, xu-1, j, xu+1, ···, xN)

② 理念

○ 要使用动态规划求解多臂老虎机 (MAB),您必须将所有臂的状态视为一个巨大的状态向量 (x1, x2, ⋯, xN)。

○ 随着臂数(N)的增加,状态空间呈指数级增长,使得计算变得不可行。

关键思想: 不要共同考虑所有臂,而是单独分析每个臂,为其分配一个分数(指数),然后选择得分最高的臂。 → 这将复杂的 N 臂问题简化为单臂问题:随机臂与静态臂(“1.5 臂”问题)。

设置: 在您面前,有一台老虎机(随机臂)。在任何时候,您都可以放弃这台机器并退休,以在每个周期(静态臂)永远获得固定奖励(M)(或R*)。


스크린샷 2025-12-26 오후 5 01 04


问题: 当随机机处于状态 i 时,退休奖励 M 的多少值使您在“继续赌博”和“立即退休”之间完全无差别? → 该退休奖励水平是状态 (i) 的 Gittins 指数

数学定义

○ 最佳停止时间(τ):你继续玩机器,当状态变得非常不利以至于你认为“最好退休并选择M”时,你就停止。


스크린샷 2025-12-26 오후 4 51 26


○ 直觉:它是你在停止之前(退休前)可以获得的总奖励除以所花费的(折扣后)时间。换句话说,它是你在退休前可以提取的单位时间平均折扣的最大奖励

最优性证明: 交换论证

○ 令 i 为当前 Gittins 指数 (γ) 最高的臂,j 为第二高的臂。

○ 假设(矛盾)策略 g̃ 首先扮演 j。

○ 通过交换顺序(交换参数),我们可以将策略更改为先玩 i,后玩 j,这是最优策略 g,并且总奖励变得大于或等于。这是因为arm i具有较高的“平均奖励率(指数)”,因此在折扣(β)下,当奖励折扣较小时,最好早点做更好的选择。

○ 定义适当的时间间隔(例如 τi、τj)需要一些额外的代数推导。


스크린샷 2025-12-26 오후 5 28 38


> ⑤ 示例1. 假设有N台老虎机,记为M1, …, MN。每台老虎机 Mi 的成功概率为 θi,失败概率为 1 − θi。当我们玩一次时,成功时我们会收到 1 的奖励,失败时会收到 0 的奖励。成功概率 θ1, …, θN 是相互独立的随机变量,取值在 [0, 1] 中,它们的先验分布用 P1(dθ1), …, PN(dθN) 表示(我们假设这些分布允许密度)。在每个时间步,我们只能选择并玩 N 台老虎机中的一台。找到最大化的最优策略 Egt=0 到 ∞ βt rt]。


스크린샷 2025-11-28 오후 12 40 47


示例 2. 我们考虑一个具有 J 个队列(节点)的小型网络。在每个节点 j ∈ {1, …, J},最初有 nj 个工作(客户)在排队等待。节点 j 服务单个顾客所需的时间是随机的,其分布具有累积分布函数(CDF)Fj。当客户在节点 j 完成服务时,会发生以下两种情况之一。以概率 qjℓ,客户移动到另一个节点 ℓ 并加入那里的队列;剩余概率为 1 − Σℓ=1 到 J qjℓ,客户完全离开系统。我们假设每当客户在节点 j 完成服务时,我们获得的奖励 rj > 0(例如,rj 可以解释为公司在节点 j 完成一项工作所获得的收入)。系统中只有一台服务器(worker)。因此,每时每刻我们都必须决定“接下来我们应该服务哪个节点的队列?”我们假设没有新客户从外部到达,我们的目标是随着时间的推移最大化总折扣奖励(总折扣收入)。将这种情况视为多臂老虎机(MAB)问题,每个节点 j 对应一个臂。在每个时间步,我们从集合 {1, 2, …, J} 中选择一个操作,并为相应节点队列中的一个客户提供服务。客户接下来去哪里是由该节点的概率 qjℓ 决定的,因此整体排队状态(每个节点上还有多少客户等)演变为下一个状态。所有节点的联合状态就是强盗问题中的“系统状态”。为了使系统看起来更像一个标准的强盗模型,我们可以添加一个虚构的第(J+1)个节点,代表离开系统的客户的目的地,从而使网络“封闭”。没有实际的服务器分配给这个虚构的节点,因此永远不会选择它作为操作;它只是一个代表离开系统的客户流量的设备。通过这种方式,单个服务器在多个队列中选择在哪里花费时间,每当服务完成时接收奖励,并相应地看到队列状态变化的结构是 MAB 的典型示例。如果根本没有到达,每个队列仅在我们选择提供服务时才会缩小,因此问题是一个相对简单的“休息”强盗(参见 Gittins 策略是最优的)。然而,如果顾客不断从外部到达,那么即使他们没有被选择,队列也会改变状态,这个问题就成为“不安分强盗”的一个例子(参见Gittins索引策略不再是最优的,必须诉诸Whittle索引等概念)。



4。高级主题⑴ 去中心化团队(refrefref)

鲁棒MDP (参考, 参考)

⑶ 约束 MDP (ref, ref)

⑷强盗([参考](https://www.semanticscholar.org/paper/A-dynamic-allocation-index-for-the-discounted-Gittins-Jones/d0c564e32058cd8e5d0bf9455538b64d8a0e2df8), [参考](https://people.eecs.berkeley.edu/~russell/classes/cs294/s11/readings/Gittins:1979.pdf),[参考](https://academic.oup.com/jrsssb/article/42/2/143/7027598), 参考参考)

⑸ 不安分的强盗([参考](https://www.semanticscholar.org/paper/Restless-bandits%3A-activity-allocation-in-a-changing-Whittle/45196e90c3b265cbcd008af6e1aac97128e525dc),[参考](https://arxiv.org/abs/2306.00196))

⑹ 强盗和自适应控制([参考](https://ui.adsabs.harvard.edu/abs/1987ITAC…32..968A/abstract),[参考](https://people.eecs.berkeley.edu/~ananth/1987-1989/Pravin/MarkovMultiarmedbandit.pdf), 参考)

⑺ 自适应控制([参考](https://www.semanticscholar.org/paper/Asymptotically-Efficient-Adaptive-Choice-of-Control-Graves-Lai/59ef34c2ecca183b7d0ff1788b49f2d5ca3e5ab9), 参考)

⑻ 系统识别(线性)(ref, 参考)

⑼ 系统识别(受控马尔可夫链)(ref, ref)

⑽ 线性 SDS 中的策略梯度 (ref, ref)



输入:2025.08.26 23:34

results matching ""

    No results matching ""