第 9 章随机控制理论
推荐帖子:【控制理论】【控制理论目录】(https://jb243.github.io/pages/1909)
1. 西格玛代数
2. 随机控制理论术语
3. 随机控制理论定律
4. 高级主题
a. 博弈论
b. 强化学习
c. 信仰的力量
1.西格玛代数
⑴【概率空间】(https://jb243.github.io/pages/1623)
⑵ Sigma-代数(σ-algebra)
2.随机控制理论术语
⑴ 变量定义
① State(系统状态)xt:表示特定值或随机变量;下同
② 观察 yt:在完美观察情况下,yt = xt
③ 噪声(系统噪声)、干扰、误差、原始随机变量 wt、vt
④ 系统状态噪声 wt
⑤ 观察噪声 vt
⑥ 原始随机种子产生随机不确定性 x0
⑦ 控制 ut
⑧ 控制策略/法律/政策 gt
⑨ 系统状态序列 xt+1 := ft(xt, ut, wt)
⑩ 观察序列 yt := ht(xt, vt)
⑪ 控制输入,动作 ut := gt(y0:t, u0:t-1)。使用所有过去的信息称为完美回忆。
⑵ 按系统顺序分类
① DDS(确定性系统):xt+1 := ft(xt, ut, wt) = ft(xt, ut)。 yt := ht(xt, vt) = ht(xt)。在任何时间 t,状态变量 xt 和输出变量 yt 都是已知的情况。
② SDS(随机动力学模型):xt+1 := ft(xt, ut, wt), yt+1 := ht(xt, vt), wt, vt ≢ 0。
⑶ 按控制输入分类
① 开环控制:ut := gt(y0:t, u0:t-1) = gt(u0:t-1)。
② 反馈控制:过去的输出 y0:t 影响控制动作 u 的情况。
③ 集中随机控制: (1) 随机动力系统 + (2) 一个控制器 + (3) 具有完美召回率的控制器
④ 多控制器问题:团队问题、竞技游戏等。
⑷ 按政策分类
① 决策过程:处理决策问题的一般框架,其中状态、行动和奖励遵循一个过程。
② 马尔可夫过程:(无论是否是决策过程)未来仅取决于当前状态
○ 马尔可夫链:马尔可夫过程中,指具有有限或可数无限状态空间的过程。
○ 受控马尔可夫链:马尔可夫链+决策过程
③ MDP(马尔可夫决策过程):决策过程中,指未来仅取决于当前状态的情况。
○ 动态规划:递推关系(打破时间依赖性)。如果说MDP指的是系统框架,那么【动态编程】(https://jb243.github.io/pages/721)指的是方法论。
○ POMDP(部分观察马尔可夫决策过程):只能使用部分信息而不是完整状态信息的 MDP 系统。
○ 受约束的 MDP、受约束的 POMDP 也存在。
○ 【相关算法】(https://jb243.github.io/pages/2162)
④ 高斯过程:状态过程{Xt}使得任何有限子集服从联合高斯分布。
⑤ 高斯-马尔可夫过程
○ 条件 1. {Xt} 是高斯过程。
○ 条件2. 马尔可夫性质: P(Xn+1 ∈ A ㅣ X0,…, Xn) = P(Xn+1 ∈ A ㅣ Xn)
3。随机控制理论定律
⑴ 引理1. 在开环控制中,xt是x0、u0:t-1、w0:t-1的函数,yt是x0、u0:t-1、w0:t-1的函数, vt。
⑵ 引理2. 开环系统与反馈系统
① 开环控制:ut := gt(y0:t, u0:t-1) = gt(u0:t-1)。
② 反馈控制:过去的输出 y0:t 影响控制动作 u 的情况。
③ 在DDS 下,开环系统和反馈系统是等效的。
○ 开环 → 反馈的证明:给定一个开环控制输入序列 u,定义一个忽略状态的反馈控制(即,在每个时间 t 返回预定 ut 的映射)。然后,从初始状态 x0 开始,它产生相同的轨迹和成本。因此,无论 DDS/SDS,对于任何开环都存在与初始状态等效的反馈策略。也就是说,开环 ⊂ 反馈始终成立。
○ 反馈证明 → 开环:在 DDS 中,所有控制输入都是唯一确定的(确定性)。因此,如果您预先指定相同的输入序列 u 作为开环策略,则结果的状态演化是相同的,成本也是相同的。
④ 在 SDS 下,开环系统和反馈系统并不等效。
○ 反例1.
○ 在上面的反例中,反馈系统优于开环系统(即,它产生较低的成本)。
⑶ 引理 3. 策略独立性:如果 Wt 独立于 X0:t-1、U0:t-1,则 ℙ(xt+1g ∈ A ㅣ x0:t, u0:t) = ℙ(xt+1g ∈ A ㅣ xt, ut) = ℙ(ft(xt, ut, wt) ∈ A ㅣ xt, ut) (马尔可夫性质),因此对策略 g 的依赖消失了。
① 在DDS中,如果知道当前状态,就可以立即知道下一个状态,但在SDS中,过去的状态很重要,因此历史的条件概率很重要。
② 即当wt独立时,系统演化遵循自然规律+纯噪声,因此策略无关;但如果 wt 取决于策略,则策略会改变噪声分布,因此未来的状态分布取决于策略。
③ 哲学: 从哲学上讲,“政策独立”意味着基于个人价值评估的多元化判断是不可能的,选择受到事实决定的限制。
⑷ 引理 4. 高斯过程 (GP)
①定义:状态过程{Xt}使得其任意有限子集服从联合高斯分布。
② 4-1. 即使每个 Xi 是高斯分布,也不意味着 {Xi}i∈ℕ 是 GP。
○ 示例: X2 = X1 I{ㅣX1ㅣ ≤ k} + (-X1) I{ㅣX1ㅣ > k},Y = (X1 + X2) / 2 不是 GP。
③ 4-2. 对于 Xt+1 = AXt + BUt + GWt,X0 ~ 𝒩(0, Σ0), Wt ~ 𝒩(0, Q),{Xt} 是 GP。
④ 4-3. 根据反馈政策,{Xt} 通常不是 GP。
○ 示例: 如果 Ut := gt(Yt) = gt(Xt) = Xt2,则 X1 = AX0 + BX02 + GW0,不是高斯分布。
○ 另一方面,在线性高斯 SDS 中,对于一般的开环策略,状态过程 {Xt} 始终是高斯的。
⑤(注)MMSE(最小均方估计量)
⑥(注)正交原理
⑦(注)LMMSE(线性最小均方估计器)
⑧ 如果 X 和 Y 共同为高斯分布,则 LMMSE = MMSE 成立。
⑸ 引理5. 多步预测
① 一般来说, ℙ(xt+2g ∈ A ㅣ xt, ut, ut+1) ≠ ℙ(xt+2g ∈ A ㅣ x0:t, u0:t+1)
» ○ 证明: 让我们考虑 xt → yt → ut → xt+1 → yt+1 → ut+1 → xt+2。由于与 u0:t-1 不独立的 ut+1 = gt(y0:t+1, u0:t) 意味着通过 xt+1 = f(xt, ut, wt) 有关 wt 的信息,因此对 ut+1 的条件作用打破了过去的独立性wt:这里的“过去”表示x0:t-1,u0:t-1。
○ 反例1. 在开环控制中,ut+1 = gt(u0:t)成立,因此它不能隐含有关wt的信息,因此等式成立。
○ 反例2. 当wt为常数时
○ 反例3. 当ut被定义为具有马尔可夫性质和无记忆反馈时,例如ut = μt(xt):则情况如下 yt = xt = ut
② 开环控制多步预测
③ 查普曼-柯尔莫哥洛夫分解
⑹ 引理 6. 线性高斯状态空间模型
①(注)高斯-马尔可夫过程
○ 条件 1. {Xt} 是高斯过程。
○ 条件2. 马尔可夫性质: P(Xn+1 ∈ A ㅣ X0,…, Xn) = P(Xn+1 ∈ A ㅣ Xn)
② 系统定义
○ 马尔可夫性质:即使有反馈策略也适用。
○ 多步马尔可夫性质
○ 平均传播
○ 互协方差 Cov(Xt+m, Xt)
○ 协方差传播
③ DALE(离散时间代数李亚普诺夫方程)
○ 如果方阵 A 的所有特征值(包括复数)的绝对值都小于 1,则该矩阵定义为稳定:因为 A∞ = 0。
○ 若 A 稳定,则 Σ∞ = limt→∞ Σt = limt→∞ 𝔼[(Xt - 𝔼[Xt])(Xt - 𝔼[Xt])ᵀ] 唯一存在。
○ Σ∞唯一性证明
○ 备注1. A 的稳定性是充分,但非必要条件。
○ 即使 A 不稳定,Σ∞ 仍可能唯一存在。
○ 给出了一个简单的例子 Σ0 = 0, Q = 0,在这种情况下 Σk ≡ 0 独立于 A。(首先没有噪声。)
○ 备注 2. Σ∞ 可能不是严格正定的。
○ 一个简单的例子是 A = O,rank(GQGT) < n。 (噪音并未触及该州的所有方向。)
○ 备注 3. 如果输入扰动 wk 影响状态向量的所有分量,则 A 的稳定性对于 Σk 的收敛是必要的,并且极限协方差 Σ∞ 将是正定的 → 与可重复性的概念相关。
④ 可达性
○ 定义:在有限时间内能否达到。与可控性和可观测性相关。
○ 定理 1. 以下都是等价的:假设 w ∈ ℝs
○ 在条件 3 中,噪声序列 w 应解释为应用于系统的控制输入;由于它们,系统可以在 n 个时间步长内从 0 转向给定状态 x。
○ 定理2. 李亚普诺夫稳定性检验
○ 请注意,在条件 2 中,它是 PD(正定),而不是 PSD(正半定)。
⑺ 引理7. 图论
① 强关联(= 不可约、可传播)
○ 从图中任意节点 i 可以到达任意其他节点 j 的条件。
○ 如果 j 从 j ∀i, j 可达,则马尔可夫链是不可约的。
图 1. “不可约”的示例
图 2. “可简化”示例(状态 3 是接收器)
② 周期:特定节点i的周期是从i返回i的所有路径长度的最大公约数
○ 示例:有两个节点 A、B,通过两条边 A=B 连接,每个节点的周期为 2。
○ 在给定适当的置换矩阵 Q 的情况下,当允许状态重排(例如 QTPQ)时,周期为 m 的转移矩阵应具有以下形式。
图 3. 周期为 m 的转移矩阵示例
S1→S2→···→Sm→S1→···有这样一个循环。
③ 非周期:所有节点的周期为1。» ○ 对于不可约马尔可夫链,如果一个状态是非周期的,则所有状态都是非周期的。
○ 示例:如果每个节点都有一条到自身的路径,则它是非周期的。
④ 平稳状态:如果 Pr(xn ㅣ xn-1) 与 n 无关,则马尔可夫过程是平稳的(时不变的)。
⑤ 常规
○ 常规 ⊂ 不可缩减
○ 对于某个自然数 k,转移矩阵 M 的幂 Mk 的每个条目都是正数(即非零)。
⑥ 转移矩阵
⑦ 马尔可夫策略:ut = gt(xt)
⑧ 利用马尔可夫过程可以证明热力学第二定律(熵增定律)。
○ 因为可以模拟扩散定律:假设有均匀平稳分布。
○ 相关概念:随机游走
⑨ Perron-Frobenius 定理
○ 定理1. 如果具有转移矩阵P的有限马尔可夫链是强连通的,则恰好存在一个平稳分布q。
○ 平稳分布满足 Pq = q。
○ 示例:如果 P = I(单位矩阵) ε ℝ2×2,则它是可约的,因此对于所有 x ε [0, 1],存在无限多个 (x, 1-x) 形式的平稳分布。
○ 定理 2. 如果具有转移矩阵 P 的 有限 马尔可夫链是强连通且非周期的,则称为 遍历马尔可夫链 并满足:
○ Pij:从节点 j 转移到节点 i 的概率。 Σi Pij = 1。注意,Pij 表示下面其他引理中从节点 i 转移到节点 j 的概率。
○ 2-1. 当 k → ∞ 时,Pk 的 (i,j) 项 Pij(k) 收敛到 qi:请注意,对于固定 i,无论 j 如何,它都会收敛到相同的值。
○ 2-2. 无论初始状态 x0 为何,第 k 状态 xk 都会随着 k → ∞ 收敛到 q。
○ 示例:如果 P=((0,1),(1,0)),则它是周期性的(周期=2)。因此,存在唯一的平稳分布 π=(0.5,0.5),但 $\lim_{k\to\infty} p(k)$ 不会收敛到单一极限,而是分裂成两个子序列(例如,$p^{\text{even }k}=(1,0)$ 和 $p^{\text{odd }k}=(0,1)$)。
⑻ 引理 8. 遵循确定性马尔可夫性质的值函数
① 预期成本和转移概率
② 递归和向后迭代:动态规划
○ JTg ∈ ℝ1×1
○ π0 ε ℝ1×n:马尔可夫链的初始分布
○ V0g ε ℝn×1:收集政策 g 下每个状态的预期累积成本的状态价值函数向量» ○ 当 T = ∞ 时,Jg 变为无穷大,无法找到最优策略 g;由此,引入了贝尔曼方程、切萨罗极限概念。
③ 贝尔曼方程: 下面主要描述贴现成本问题。
○ (注)时间齐次:{xtg}t≥0 和 {xtg}t≥τ,∀τεℤ+ 遵循相同的分布。也意味着严格静止。
○ 条件 1. 时间齐次转变: Pt(j ㅣ i, u) = P(j ㅣ i, u) ∀t
○ 条件 2. 时间同质成本:Ct(x, y) = C(x, y) ∀t
○ 条件 3. 平稳策略:gt = g ∀t
○ 如果以上都成立,则可以得到下面的定点方程。
○ Jg:成本的现值;一般用于经济领域。
○ 由于 Pg 稳定,所有特征值的绝对值均小于 1,因此 det(I - βPg) = β det((1/β)I - Pg) ≠ 0
○ Vg ε ℝn×1:状态价值函数向量,收集政策 g 下每个状态的预期贴现累积成本
○ Pg ∈ ℝn×n:转移矩阵; (i,j) 条目是从 i 转移到 j 的概率。
④ 塞萨罗极限:与长期平均成本问题有关。
⑤ 泊松方程:与平均成本有关。
○ Jg 是独一无二的。
○ Lg:相对值函数。 Lg 不是唯一的(∵ Lg + α1 ∀α ε ℝ 也是泊松方程的一个解)
○ 解的存在性
⑼ 引理 9. 当不是不可约时
① 如果 Pg 不是不可约的,则状态空间 S 分裂为瞬态 T 和一个或多个循环通信类 C1,…
② 瞬态:仅访问有限次。最终该过程离开瞬态并进入循环状态。
○ 定理: 有限状态马尔可夫链的平稳分布 πg 将概率 0 分配给所有瞬态。
○ (i) 证明:鸽巢原理。有限性至关重要(并且需要使用)。»> ○ 假设某个暂态i满足Qi=0。由于循环通信类是一个闭集,因此一旦进程进入循环类,就不会与外部节点发生通信。因此,该假设意味着瞬态 i 对于所有 K 个转换仅转变为瞬态。因此,根据鸽巢原理,K+1 个鸽巢中至少有一个瞬态被访问两次(从开始算起),这会产生完全包含在瞬态集中的有向循环。这个循环是封闭的(在这 K 个步骤中没有边将其留给循环类),因此它形成了一个与给定循环类不相交的封闭通信类。在有限马尔可夫链中,每个封闭的通信类都是循环的;因此,我们产生了第二个循环类,这与唯一性假设相矛盾。因此,假设 Qi 为假,因此对于每个瞬态 i. Qi>0
○ (ii) 证明
③循环状态:由于循环通信类是闭集,因此不会与外部节点发生通信。
○ i → j:表示从 i 到 j 存在一条概率为正的路径。
○ i ↔︎ j:表示i → j 且j → i; i 和 j 进行交流。
○ 正循环:返回该状态的平均时间是有限的。
○ 以正循环状态开始的链具有独特的平稳分布。
○ 零循环:返回该状态的平均时间是无限的。不存在平稳分布。
○ 示例: Xn+1 = Xn + ψn, X0 = 0, ℙ(ψn = +1) = ℙ(ψn = −1) = 0.5 → 返回原点的概率为 1,但期望时间为 Infini。
○ 吸收状态:一旦进入,就永远处于这种状态
④ 例1. 静止状态集F
⑤ 示例2. 有限状态空间
令 S = {0, 1, ···, I}。由于 Vg(0) = 0 且 C(0, g(0)) = 0,我们只能关注 Ś = S \ {0} = {1, ···, I},即非吸收态。令 Ṽg 为 Ś 中状态的值向量,并令 Rg 为 Pg 的子矩阵,用于 Ś 内状态之间的转换。 (即,描述链在达到 0 之前如何仅在非吸收状态之间移动的矩阵。)那么这些状态的方程组为 Ṽg = c̃ + RgṼg。为了显示Ṽg的唯一性,假设有两个解Ṽ1g,Ṽ2g。设它们的差为 Ug = Ṽ1g - Ṽ2g;两个方程相减得到 Ug = RgUg = ⋯ = (Rg)nUg = ⋯ = 0 (∵ limn→Infini (Rg)n = 0,无限下降法)⇔ Ṽ1g = Ṽ2g。因此,在状态 0 为吸收且所有其他状态都可以达到 0 的有限状态空间中,首次通过时间成本方程具有唯一的非负解。
⑥ 例3. 可数无限状态空间
图4. 可数无限状态空间图
独特性并非微不足道。假设解是有界的通常可以显示出唯一性。考虑两个解之差的方程 Ug = RgUg。将其连接到图上可得出 Ug(ℓ+1) - Ug(ℓ) = (λ - 1)(Ug(ℓ) - Ug(ℓ-1))。连续差值 Δ(ℓ) = Ug(ℓ+1) - Ug(ℓ) 形成比率为 (λ - 1) 的几何序列。如果 |λ - 1| < 1,这些差异收敛于 0,表明有界解。如果 |λ - 1| ≥ 1,差异可能会发散,这意味着唯一性可能会失败。
⑽ 引理 10. Martingale
① 杜布定理
○ σ(X1, X2, ···, Xn):使 X1, X2, ···, Xn 可测量的最小 σ 代数。
○ Doob 定理:σ(X1, X2, ···, Xn) 等价于 g(X1, X2, ···, Xn) 形式的所有函数的集合。
○ σ 代数越大,可测量的函数就越多;即它包含的信息越多。
② 过滤
○ 按包含顺序递增的 σ 代数集合。
○ 按 ⊆ 排序;如果 ℱ1 ⊆ ℱ2,则 ℱ2 之后是相对于 ℱ1 的。
○ 为了方便起见,令时间索引 t = 0, 1, 2, ⋯;则过滤为 {ℱt}t∈ℤ+ 并且对于所有 s ≤ t 满足 ℱs ⊆ ℱt。
○ 直觉:代表信息随着观察的积累而增加的情况。
③ 鞅
○ 条件期望的性质
○ 对于任意随机变量 Y,𝔼[Y ㅣ X1, ···, Xn] = 𝔼[Y ㅣ σ(X1, ···, Xn)] 成立。
○ 原因:因为 σ(X1, ···, Xn) 等价于 X1, ···, Xn 生成的所有函数的集合。
○ 另外,当 σ(Y) ⊂ σ(Z) 时,𝔼[𝔼[X ㅣ Z] ㅣ Y] = 𝔼[𝔼[X ㅣ Y] ㅣ Z] = 𝔼[X ㅣ Y]成立。
○ Martingale:随机过程 {Xt}t∈ℤ+ 适应过滤 {ℱt}t∈ℤ+ 满足以下所有条件
○ 条件 1. Xt 对于所有 t ∈ ℤ+ 是 ℱt 可测量的。
○ 如果 s ≤ t ≤ s′ 且 ℱs ⊆ ℱt ⊆ ℱs′,则 Xt ∈ ℱt 不是 ℱs 可测(由于信息不足),而是ℱs′-可测量。
○ 条件 2. 𝔼[ㅣXtㅣ] 对于所有 t ∈ ℤ+ 都是有限的。
○ 条件 3. 𝔼[Xt ㅣ ℱs] = Xs,几乎可以肯定,对于所有 s ≤ t 且所有 t ∈ ℤ+
○ 解释: 仅给定时间 s (ℱs) 之前的信息,Xt 的最优预测等于 Xs(即,预测被限制为 Xs;𝔼[Xt ㅣ ℱs] 是Xt 进入 ℱs 可测量随机变量空间(“最佳预测”))。
○ 备注: 仅当根据过去预测未来时才需要鞅性质。特别是,对于 s > t,无论 Xt 是否是鞅(假设可积),我们都有 𝔼[Xt ㅣ ℱs] = Xt。»» ○ 对于 s < t,𝔼[Xs ㅣ ℱt] = Xs 也成立,因为 Xs 是 ℱs 可测的,但由于 ℱs ⊆ ℱt 信息不足。
○ 注意:i.i.d.过程通常不是鞅(常数过程除外)。
○ 应用:𝔼[Ug(Xtg) ㅣ Xt-1g] = Ug(Xt-1g)
④ 鞅与随机控制理论
⑾ 引理 11. (Fully observed) ― 最优策略
① 问题定义:完美观察下的cost-to-go函数。由于控制输入 {Ut, …, U1} 可以通过 {Xt, …, X0} 测量,因此以下公式成立:
② 遵循马尔可夫性质,贝尔曼方程成立。这里,Jtg,VtgM(Xt)是从t到未来的成本。
③ 马尔可夫化定理(马尔可夫政策充分性,还原为马尔可夫政策)
○ 定理: 在有限范围 MDP 中,对于任何一般(可能依赖历史和随机)策略 g,都存在一个行为马尔可夫策略 gM,使得在相同的初始分布 μ 下,所有 t = 0, …, T−1 和 XT 的 (Xt, Ut) 联合分布是相同的。因此,性能(成本)Jg = 𝔼g[Σt=0 to T−1 Ct(Xt, Ut) + CT(XT)] 等于 JgM。因此,在不损失最优性的情况下,人们可以将注意力限制在随机马尔可夫策略上。
○ 证明
④ 比较原理
○ 定理: 通过从目标向后推导并确保贝尔曼不等式在每一步都成立,初始值 V0 作为所有可能政策性能的下界。在每个阶段实现平等的一系列行动共同构成了最优政策。因此,可以通过组合局部最优(阶段式)选择来验证或构造最优性。
○ 证明:使用【数学归纳法】(https://www.youtube.com/watch?v=t9RBuyBmFdQ) 向后推导
○ 情况 1. t = T: 由于 JTg = 𝔼g[CT(XTg) ㅣ XTg, …, X1g, X0] = CT(XTg) ≥ VT(XTg) (∵ (V1)) 成立,归纳假设仍然成立。
○ 情况 2. 如果归纳假设建立在 ℓ = t+1, …, T 上,则该假设对于 ℓ = t 仍然成立,可以验证如下:
○ 推论
⑤ 哈密尔顿-雅可比-贝尔曼 (HJB) 方程
○ 定理:HJB 适用于有限/可数无限、状态/动作空间。贝尔曼方程的连续时间版本。
○ 定理1的证明已在比较原理中给出,因此以下解释仅与定理2相关。
○ p:某个马尔可夫策略 gM = {gt} 是最优的。
○ q: 给定 ∀x, t, gt(x) ∈ arg infuε𝒰 {ct(x, u) + 𝔼Wt[Vt+1(ft(x, u, Wt))]} (即实现逐步贝尔曼最小化)
○ 定理 2 (q ⇒ p) 的充分性证明:当每个阶段给出 xt 时,任何满足下确界的策略都是最优的(∵推论)。那么,ut应该是当前状态xt的可测函数,最优策略应该是马尔可夫策略。
○ 定理 2 的必要性证明 (p ⇒ q):如果一个策略是最优马尔可夫策略,它应该在每个阶段实现下确界 (w.p.1);否则,我们可以构造一个具有正概率集的更好的策略 g’,这意味着 J(g’) < J(g)。
○ 推论
○ 应用1. 如果1→6的最优路径为1→2→3→6,则根据HJB方程,2→6的最优路径应为2→3→6。
○ 应用 2. 政策评估:下面讨论。
○ 应用3. 由HJB方程得到的Vt(x)称为价值函数。它有效地减少了搜索空间的大小。
○ 应用 4. Q 值(状态-动作值函数): Qt(x, u) = Ct(x, u) + 𝔼Wt[Vt+1(ft(x, u, Wt))], Vt(x) = infuε𝒰 Qt(x, u)
○ 应用5. 对于给定的有限状态/动作空间,inf = min,最优策略是确定性马尔可夫策略。
○ 应用 6. 随机马尔可夫策略下的价值函数:对于 u ~ μt(u ㅣ i),
⑥(注)【布莱克威尔无关信息原则】(https://projecteuclid.org/journals/annals-of-mathematical-statistics/volume-35/issue-2/Memoryless-Strategies-in-Finite-Stage-Dynamic-Programming/10.1214/aoms/1177703586.full)» ○ 如果 Y 独立于状态并且不直接出现在奖励中,则 Y 与决策无关:忽略 y 的决策规则总是至少一样好。换句话说,拥有更多信息并不总是更好。
○ 示例: 假设医生必须决定患者的治疗方案。每天早上,医生可以观察患者的健康状况X,此外还知道今天是星期几Y。可用的操作是“治疗”和“不治疗”。如果一周中的某一天与预期奖励(生存概率)和健康状况无关,则仅根据 X 做出决策会产生与同时使用 X 和 Y 相同的预期生存概率。
○ 然而,根据动作空间和可测性等技术假设,该陈述可能需要用ε-最优策略来制定,并且当涉及可数/不可数和可测性陷阱时(例如Borel集的投影可以是非Borel),存在全局近似优势失败的反例。
○ 结论: 在动态规划问题中,可以从数学上证明无记忆策略足以优化预期奖励。
○ 应用: 在有限视野马尔可夫决策问题中,可以轻松证明马尔可夫策略是最优的。 ([参考](https://infostructuralist.wordpress.com/2010/11/08/deadly-ninja-weapons-blackwells-principle-of-irrelevant-information/))
⑿ 引理 12. (Partially observed) ― 信息状态
① {zt}t={0,…,T} 满足以下给定的部分观察上下文
○ 背景:历史 Ht := {y0, …, yt, u0, …, ut-1} 随着时间的推移而增加,其域呈指数增长。 (维度的诅咒)
○ 条件 1. 压缩: zt = ℓt(Ht) ∀t
○ 条件 2. 政策/策略独立:zt+1 = 𝒯t(zt, yt+1, ut) (■当前状态,■新信息)也就是说,zt可以使用当前状态和新信息递归更新,而不需要直接引用整个过去的历史。
○ 条件 3. 相对于 g0:t-1 的独立性:∀t = 0, …, T-1
② 条件 1. zt = Ht := {y0, …, yt, u0, …, ut-1}
○ π0(i) 如下:
③ 候选人 2. 信念状态:zt = πt s.t. πt(i) := ℙ(Xt = i ㅣ Ht) = ℙ(Xt = i ㅣ y0:t, u0:t-1) ∀i ∈ S
○ 满足条件 1:时间上的 zt = ℓt(Ht)(压缩)
○ 满足条件2:直接利用贝叶斯法则可以得到满足 πt+1 = 𝒯t(πt, yt+1, ut) 的𝒯t。这是置信状态的更新方程,通常称为非线性滤波器。
○ 满足条件3:使用逆向数学归纳法。
○ 情况 1. t = T-1:所有项都不依赖于 g0:T-1。
○ 情况 2. 后向归纳法可以建立如下:
○ 贝尔曼信念方程-MDP: 该定理的关键信息是,尽管 MDP 的整体策略空间 𝒢 包含从历史到行动的所有映射,因此非常大,但信念 Πt 是足够的,因此我们通过将注意力限制在“信念 → 行动”形式的分离策略上,不会失去最优性。
○ 证明
○ 应用1.(单向)分离定理
○ 应用2. 置信空间中的成本函数
○ 应用 3. 与信念状态不同,以下内容依赖于策略,因为它依赖于 gt-1。
○ 应用 4. 与信念状态不同,以下是依赖于策略的:因为如果不包括 ut 作为条件 πt+1 = 𝔼ut ~ p(· ㅣ Y0:t) [𝒯t(πt, yt+1, ut)] 成立,因此信息状态转换受策略影响。
○ 应用 5. 一般来说,Pg(Xt+1 ∈ A ㅣ Ht, ut) ≠ Pg(Xt+1 ∈ A ㅣ yt, ut), Ht = (Y0:t、U0:t-1)»> ○ 证明: 假设 t = 1。我们考虑 x0 → y0 → u0 → x1 → y1 → u1 → x2 → ⋯。给定 H1 = (y0:1, u0),我们可以通过 y0 → x0 确定 x0 的分布。因此,我们可以通过 y1 → x1 和 (x0, u0) → x1 更准确地确定 x1 的分布。之后,我们可以通过x1、u1、w1确定x2的分布。然而,在右侧,我们只能使用 y1 → x1 以及 u1 的有限信息来确定 x1 的分布,导致 x2 的分布不太准确。因此,双方意见不一。
○ 应用 6. Pg(Xt+1 A ㅣ Ht, ut) = Pg(Xt+1 A ㅣ y0:t, ut)
○ 证明: 让我们考虑 x0 → y0 → u0 → x1 → y1 → u1 → x2 → ⋯。给定策略 g,在右侧,我们可以分别通过 y0 → u0 和 y0 → x0 确定 u0 和 x0 的分布。因此,我们可以通过 (x0, u0) → x1 来确定 x1 的分布。现在利用 ut = gt(y0:t, u0:t-1) 和 xt+1 = ft(xt, ut, wt) ,我们可以确定所有变量的分布,从而彻底得到 xt+1 的分布。从左侧看是一样的。
○ 结论: 信息状态 Ztg := (Y0:tg, U0:t-1g) 是 Y0:tg 的函数。
○ 应用 7. P(Xt+1 ∈ A ㅣ Ht, ut) ≠ P(Xt+1 ∈ A ㅣ y0:t, ut)
○ 证明: 让我们考虑 x0 → y0 → u0 → x1 → y1 → u1 → x2 → ⋯。在右侧,我们可以通过 y0 → x0 确定 x0 的分布,但只能在策略集的概率上通过 y0 → u0 确定 u0 的分布。然而,u0 恰好在左侧给出。因此,双方意见不一。我们可以得出结论,Pg(Xt+1 ∈ A ㅣ Ht, ut) 是策略无关的,而 Pg(Xt+1 ∈ A ㅣ y0:t, ut) 是策略依赖的。
⒀ 引理 13. 动态规划
① 如果 Vt(i) = max{r(i), a + bΣj∈S ℙ(j ㅣ i) Vt+1(j)} = max{r(i), a + b𝔼[Vt+1(j) ㅣ i]}, Vt(i) ≥ Vt+1(i)成立。
② 如果 Vt(x) = max{-c + p(x)(1 + Vt+1(x-1)) + (1 - p(x))Vt+1(x), Vt+1(x)}, VN+1(x) = 0,则成立:
○ 时间上的单调性: Vt(x) ≥ Vt+1(x) (证明)
○ x 上的单调性: Vt(x) ≥ Vt(x-1) (证明)
○ 边际值的上限值: 1 ≥ Vt(x) - Vt(x-1) (证明)
○ x 上的凹性不成立: Vt(x) - Vt(x-1) ≤ Vt(x-1) - Vt(x-2) (存在反例)» ○ 边际价值与时间的关系: Vt(x) - Vt(x-1) ≥ Vt+1(x) - Vt+1(x-1) (证明)
○ 阈值的存在: Gt(x) = p(x)(1 - Δt+1(x)) 在 x 上是非递减的(证明)
③ 凸面
○ 引理 1. 给定两个凸函数 f1 和 f2,max{f1, f2} 也是凸函数。
图 5. 两个凸函数的最大值是凸函数。
○ 引理 2. 两个凸函数之和是凸函数。
○ 引理 3. 如果 V(x) 是非减凸函数,则 V(max{x, a}), ∀a 也是凸凸函数:在几何上很容易理解。
○ 引理 4. 若 L(π) 为凸函数,则 L(π)=supi∈I {αi π + βi}, αi, βi ε ℝ 成立。
○ 以上来自不等式 f(x) ≥ f(x0) + f’(x0)(x - x0);这并不是说该公式适用于任意选择 αi 和 βi。
○ 示例:如果 L(π) = π2,则 π2 = superx0εℝ {2x0π - x02}。
○ 实用点:使用在线性(仿射)表示中保留凸性的变换,可以表明对原始凸函数应用相同的变换也可以保留凸性。示例如下。
⒁ 引理14. (Stochastic policy) DCOE(贴现成本最优方程,无限范围贴现成本贝尔曼方程)
①【Banach不动点定理】(https://jb243.github.io/pages/1827)
○ 定理
○ 设 F 为 Banach 空间。这里,Banach空间是指完全赋范空间,集合“完备”意味着集合中的每个柯西序列都收敛于集合中的某个元素。令 T: F → F 为满足以下关系的变换:ㅣㅣTx - Tyㅣㅣ ≤ βㅣㅣx - yㅣㅣ,∃β ∈ (0,1),∀x, y ∈ F。则有:
○ 存在唯一不动点 w ∈ F 满足 Tw = w。
○ 对于任意 x ∈ X,limn→∞ Tnx = w。
○ 这本质上意味着以下内容:
○ 满足上述条件的变换称为收缩。严格来说,它要求sup β(x, y) < 1。
○ T 是连续的,具体来说是 Lipschitz 连续的。
○ 证明
○ 令 x ∈ F, α = ㅣㅣx - Txㅣㅣ。那么,我们有ㅣㅣTnx - Tn+1xㅣㅣ ≤ βnα。如果我们设置 {x, Tx, T2x, ···} 的柯西序列,我们可以得到: ∀ϵ > 0, ∃Nϵ s.t。 ∀n, m ≥ Nϵ, ㅣㅣTnx - Tmxㅣㅣ < ϵ。不失一般性,我们可以设置n>m。那么,我们有
»> ○ 因此,我们有 N 服从 αβN / (1 - β) < ϵ。由于 F 是 Banach 空间,因此 w 服从 limn→∞ Tnx = w。由于 T(limn→∞ Tnx) = Tx = limn→∞ Tn+1x = w,所以 w 是一个不动点。如果我们将 w1、w2 设置为 T 的不动点,则有 ㅣㅣw1 - w2ㅣㅣ = ㅣㅣTw1 - Tw2ㅣㅣ = ⋯ = ㅣㅣTnw1 - Tnw2ㅣㅣ = ⋯ = 0,因此 w1 和 w2 相同。
○ 直觉
②贝尔曼算子和收缩定理
○ 定理
○ 令 F 为一组函数,例如 F = {z: S → ℝ}。这里,S = {1, 2, ···, I} 且 z := (z(1), ···, z(I))T。让我们定义以下范数: ㅣㅣzㅣㅣ = maxi ㅣz(i)ㅣ(即ㅣㅣ·ㅣㅣ∞) 让我们为每个分量定义运算符 T: F → F。然后,对于所有 i ∈ S,我们有 Tz(i) = minuε𝒰 [C(i, u) + βΣjεS ℙ(j ㅣ i, u) z(j)]。那么,T就是收缩映射。
○ 证明
○ 令 ℝI 为范数为ㅣㅣ·ㅣㅣ∞ 的 Banach 空间。若z,y ∈ F,则可证明定理如下:
○ 即使我们用成本最大化的特殊定义替换它,收缩定理在相同的证明结构下仍然成立。
③ 推论
○ ∀i ∈ S, W∞(i) = minuε𝒰 C(i, u) + βΣjεS ℙ(j ㅣ i, u) W∞(i) 有 w∞ 的唯一解。
○ DCOE与几何分布的关系
○ W∞(i) = infgε𝒢 Jg(i) = infgε𝒢 𝔼g[Σt=0 到 ∞ βtc(xt, ut) ㅣ X0 = i], ∀i ∈ S
○ Jg(i) 和有界的定义
○ W∞的定义:根据收缩映射的性质,递减序列{Wn}收敛于W∞。
○ Jg(i) ≥ W∞(下界)
○ W∞(i) ≥ infg Jg(i)(上界):可表示为 J(X0, π*) ≤ Στ=0 to t-1 βτ Cτ(Xτ, πτ*) + βt𝔼[Vt(Xt, πt)]。
○ 结论: W∞(i) = infg Jg(i)
○ 最优平稳马尔可夫策略 g*(i) ε argminuε𝒢 c(i, u) + βΣjεS ℙ(j ㅣ i, u)V∞(j)
○ ⇔ W∞ = cg* + βPg*w∞» ○ ⇔ W∞ = (I - βPg*)-1 cg*
○ 最优算子T定义如下:
○ 根据定义,TZ ≤ TgZ
○ Tg 和 T 都是 ℓ∞ 范数上的收缩映射。
○ Tg 和 T 都满足单调性:如果 z ≤ y,则 Tgz ≤ Tgy 且 Tz ≤ Ty
○ 证明1
○ 证明2
○ 若 h, g ∈ 𝒢SMP,且 ThW∞g ≤ W∞g,W∞h ≤ W∞g 成立: ThnW∞g ≤ ⋯ ≤ ThW∞g ≤ W∞g;然后,我们可以将n设为无穷大来得到结论。
④ 算法1. 值迭代
○ 通过重复应用贝尔曼最优算子 T 来更新价值函数的方法,即 Vk+1 = TVk。
○ 由于收缩映射性质,如果 β < 1,则 Vk → V* 收敛到唯一不动点,并且相对于 V* 的贪心策略是最优的。
○ 典型的停止标准是ㅣㅣVk+1 - Vkㅣㅣ∞ < ε 等。
○ 特点: 优点是计算简单,缺点是需要多次迭代。
⑤ 算法2. 策略迭代
○ 步骤 1. 选择任意平稳马尔可夫策略 gn ∈ 𝒢SMP。
○ 步骤 2. 策略评估: 计算 W∞gn = (I - βPgn)-1Cgn。
○ 步骤3. 停止准则:如果TW∞gn = W∞gn,停止并以gn为最优策略;否则请转至步骤 4。
○ 步骤4. 策略改进:定义gn+1如下。
○ 定理: 序列 ({g0, g1, g2, …}) 经过有限多次迭代后达到最优策略。
○ 证明: 当停止条件 W∞gn = TW∞gn 成立时,gn 已经是最优策略。否则,在步骤 4 中,我们有 Tgn+1 W∞gn ≤ W∞gn,并且至少有一个状态是严格不等式的。由于可能的策略数量是有限的(ㅣUㅣㅣSㅣ),并且每一步的成本都会严格改善(至少在一个状态下),因此无法重新审视相同的策略。因此,该算法通过有限多个步骤达到停止条件并产生最优策略。
○ 特点: 它的优点是需要迭代次数少得多,但每次迭代时必须在两个算子之间交替(策略评估(由于逆矩阵计算更昂贵)和策略改进)。
⑥ 算法3. 线性规划
○ 定理
○ 证明
○ 实现: 拉格朗日乘子法,双最优变量。
⒂ 引理15. (Stochastic policy) ACOE(平均成本最优方程,无限范围平均成本贝尔曼方程)
① 概述
○ 对于有限状态空间、有限动作空间和有界成本函数,定义 Jg 如下:
○ 在不可约马尔可夫链中,考虑泊松方程 Jg1 + Wg = Cg + PgWg。
○ 如果 Wg 是解,则 Wg + α1 也是任意常数 α 的解,但 Wg 是唯一确定的,直到该可加常数。
○ ACOE 的推导:相对值函数 WN(i) - WN(j) 收敛,N → ∞,对应 W(i) - W(j)。
○ 意义1. J* 是最优成本。
○ 意义2. 最优SMP g* 必须满足ACOE。
○ 假设最优策略 g* 给出如下,并假设该等式对于某些状态 i 不成立。
○ 那么矛盾就出现了,因为g*失去了最优性,因此最优的g*必须满足ACOE。
○ 意义3. 我们可以使用策略迭代。
② 算法1. 策略迭代算法
○ 步骤 1. 选择任意策略 g0 ∈ 𝒢SMP。
○ 步骤2. 策略评估: 给定gn,求解以下泊松方程得到(Jgn, Wgn)。由于我们有 I 个方程,但有 (I+1) 个未知数(Jgn、Wgn(1)、…、Wgn(I)),我们固定一个分量,例如设 Wgn(I) = 0),唯一确定 Jgn1 + Wgn = Cgn + 的解PgnWgn
○ 步骤3. 停止标准: 如果gn 满足ACOE,则gn 是最优SMP。否则,请转到步骤 4。 ACOE: Jgn + Wgn(i) = minuε𝒰 {C(i, u) + ΣjεS P(j ㅣ i, u)Wgn(j)}, ∀i
○ 步骤4. 策略改进:通过 gn+1 ε arg minuε𝒰 {C(i, u) + ΣjεS P(j ㅣ i, u)Wgn(j)} 定义新策略 gn+1 并返回步骤2。
○ 如果 gn 不满足停止准则,则 Jgn+1 < Jgn 成立。
③ 算法2. ACOE和相对值迭代
○ 假设:对于每个 g ∈ 𝒢SMP,转移矩阵 Pg 是不可约且非周期的。
○ 步骤 1. 选择任意 h0 ∈ ℝI。
○ 步骤 2. 对于任意 k ≥ 1,
○ ∀i ∈ S, λk(i) = minuε𝒰 {C(i, u) + ΣjεS P(j ㅣ i, u)hk-1(j)}
○ μk = λk(I) 对于某些固定参考状态 I
○ ∀i ∈ S, hk(i) = λk(i) - μk
○ 步骤3. 检查收敛性;如果不收敛,则返回步骤2。
○ 那么μk收敛到J*,hk收敛到W(相对值函数)。
④其他算法
○ 线性规划:如果没有最大值条件,由于 ≤ 不等式(这是比取最小值更强的条件),J* 可以下降到 −∞。
○ 逐次逼近
○ Bertsekas 算法
○ Puterman 算法
⑤ MDS(鞅差分序列)
○ 概述: 对于具体样本路径(随机变量),我们要证明 lim infN→∞ ĴNg(ω) 对于每个 g 几乎肯定 (a.s.) 如下,并且 limN→∞ ĴNg*(ω) = J*如(假设 g* 是最优的)
○ 定理 1. 让 {Xk}kεℕ 适应过滤 {ℱk}kεℕ 并几乎肯定满足 𝔼[Xk+1 ㅣ ℱk] = 0。那么 Xk 和 Yk = Σj=1 到 k Xj 是 ℱk 可测的。
○ 定理2. 鞅稳定性定理(LLN)
○ 定理 3. 对于任意 g ε 𝒢,limN→∞ inf (1/N) Σt=0 到 N-1 C(Xtg, Utg) ≥ J* a.s.成立,如果等式成立,则 g* 满足 ACOE。
○ 令 (J*, W) 为 ACOE 的解。定义 Zk+1 = C(Xk, Uk) - J* + W(Xk+1) - W(Xk) - h(Xk, Uk) 和 h(i, u) = C(i, u) + Σj∈S P(j ㅣ i, u)W(j) - J* - W(i) ≥ 0。设 ℱk = σ(X0, X1g, ···, Xkg)。然后,给定 Ukg = gk(X0, X1g, ···, Xkg),我们得到 𝔼[Zk+1 ㅣ ℱk] = 0如下:
○ 因此 {Zk}k∈ℕ 是一个 MDS,并且 Zk+1 的每一项都是有界的,因此 Zk+1 相对于 M̃ 有界。因此,
○ 成立,根据 LLN,我们有 limN→∞ (1/N)Σk=1 to N Zk = 0 a.s.但是
○ 成立且 h(·,·) ≥ 0,因此我们有 limN→∞ inf (1/N) Σt=0 到 N-1 C(Xtg, Utg) ≥ J* a.s.
⑥ 定理: 当 β → 1 时,DCOE 问题与 ACOE 问题等价。
○ 上述证明中ㅣWβ(i) - Wβ(j)ㅣ < ∞ 的原因。
○ 定理
○ 上限
○ 下限
○ 一般证明
○ 意义 1. 最优策略 gβ* 不一定收敛于最优 ACOE 策略 g*。
○ 显着性 2. Blackwell 最优性:如果相同的策略 gβ* 对于所有 β̂ < β < 1 的 β 都是最优的,那么 gβ* 对于 ACOE 也是最优的。那么,Jβ* = ACOE 最优 J* 也成立。
○ 证明1.
○ 证明 2. 在经典的 Blackwell 论证中,您可以通过将两个固定策略 π 和 ν 作为贴现因子函数 fπ,ν(γ) = Vγπ − Vγν 的函数来比较两个固定策略 π 和 ν。在标准有限 MDP 中,这种差异是 γ 的有理函数,非零有理函数只能有有限多个零。这意味着只有有限多个贴现因子 γ 可以使这两种策略相互关联;超出这些点,它们的排名不能像 γ → 1 那样无限频繁地翻转。因此,对于所有足够接近 1 的 γ,相同的策略仍然是最优的,并且该策略对于平均奖励标准也是最优的;这就是布莱克威尔最优策略。
⒃ 引理 16. 卡尔曼滤波器
① 概述
○ 情况 1. 纯预测问题 (Ut ≡ 0):卡尔曼滤波器。给定 Y0,…,Yt,问题是预测 X0,…,Xt。
○ 情况 2. 纯控制问题 (Yt = Xt):LQR(线性二次调节器)
○ 情况 3. 具有二次成本的部分观测:LQG(线性二次高斯)。
② 回顾:线性高斯过程
③ 情况 1. ut ≡ 0 或 Bt = 0
○ 步骤 1. 预测
○ 步骤2. 观测预测
○ 步骤3. 数据更新
○ 意义: 从Lt的形式来看,滤波器是确定性的、非线性的。
○ 应用: 卡尔曼滤波器的渐近行为
○ 定义: 在时不变情况下 At ≡ A, Gt ≡ G, Ct ≡ C, Ht ≡ H。
○ 背景理论: 在讨论卡尔曼滤波器的渐近行为时出现可观性的原因是,为了构造一个长期稳定的观测器,系统必须至少是可观的,或者更一般地说,满足可观性。如果存在不可观测模式,则无法使用测量来校正该方向的状态分量。特别是,如果这样的模式不稳定(即,其特征值位于单位圆之外),则无法从输出推断其贡献,并且该方向上的估计误差随着时间的推移而无限制地增长。因此,误差协方差 Pk 也沿着该方向发散,因此 Riccati 递归不会收敛到有限极限 P∞,并且观测器误差无法稳定。因此,为了保证卡尔曼滤波器良好的渐近行为(例如误差协方差的收敛、恒定的稳态卡尔曼增益和稳定的估计),所有不稳定模式都是可观测的,即 (A,C) 对是可观测的,这一点至关重要。
○ “Observable”、“Detectabile”和“reachable”具有相同的含义。
○ ARE(代数 Riccati 方程)
○ 如果 (A,S) 可达,则以下等价: A 稳定。 ⇔ 方程 Σ = AΣA* + SS* 有正定解 Σ。 ⇔ 推论
④ 情况 2. 任意 ut = gt(Ht) = gt(y0:t, u0:t-1) 和任意 Ct(xt, ut)
○ 结果 1. (y0:tg, u0:t-1g) 和 y0:t 是相同的 σ 代数:每个都是彼此的函数
○ (y0:tg, u0:t-1g) → y0:t 证明: u0g = g0(y0g) = g0(y0 + ş0g) 和 y0 = y0g - c0x̄0g = y0g - C0𝔼[x0]。 x̄1g = A0x̄0g + B0u0g,所以 ş1g = C1x̄1g,导致 y1 = y1g - ş1g。所以,我们可以这样构造 y0:t 。»> ○ y0:t → (y0:tg, u0:t-1g) 证明: 让我们考虑 x0 → y0 → u0 → x1 → y1 → u1 → x2 → ⋯。 ų0g = c0x̄0g 已知。 y0g = y0 + ş0g 是已知的,u0g = g0(y0g) 也是已知的。那么, x̄1g = A0x̄0g + B0u0g 是已知的,我们也知道 ş1g = c1x̄1g 和 y1g = y1 + ş1g。因此,u1g = g1(y0:1g, y0g) 是已知的。因此,命题可以这样证明。
○ 这与前一个命题相关:Pg(Xt+1 ∈ A ㅣ Ht, ut) = Pg(Xt+1 ∈ A ㅣ y0:t, ut)。
○ 结果 2. πt = ℙ(xtg ㅣ y0:tg, u0:t-1g) = ℙ(xtg ㅣ y0:t)
○ 结果 3. ℙ(xt ㅣ y0:t) (= 卡尔曼滤波器) 足以理解系统。
○ 备注 1. 控制仅影响 x̄tg(均值),而不影响 Σtㅣt(方差)。
○ 备注 2. 与一般 POMDP 不同,它不需要学习(主动探索)来减少方差。
○ 备注3. 分离原理:卡尔曼滤波器和控制可以分开。
⑤ 动态规划
⑥ 二次成本
○ 假设: Ct(xt, ut) = xt*Ptxt + ut*Ttut, CT(xT) = xT*PTxT
○ 令 X ~ 𝒩(X̄, Σ) 和 S 为对称矩阵,则有 𝔼[X*SX] = X̄*SX̄ + Tr(SΣ)。
○ LQG问题的解决方案
○ 证明
○ 备注1. 确定性等价控制:最优控制策略中不出现噪声项{wt}和{vt}。
○ 备注2. 分离原理:通过卡尔曼滤波器进行前向估计,通过求解LQR问题进行控制动作的后向计算。
○ 备注 3. 如果 Σtㅣt ≡ 0,则 st ≡ 0。
⑦ 二次成本和ACOE
⒄ 引理 17. MAB(多臂老虎机)
图 6. MAB
① 公式
○ 前提:N 个随机过程 (Xkn)k=0,1,…; n=1,2,……
○ 状态集:S = {1, 2, ···, I} 或可数无限集» ○ 动作集:uk ∈ {1, 2, ···, N}
○ 转换规则
○ 目标: 我们想要一个最优策略,使得supg∈𝒢 𝔼g[Σk=0 to ∞ βkR(xkuk)]。
○ 动态规划: W(x1, x2, ···, xN), xi ∈ S(sN) = maxu∈{1, 2, ···, N} R(xu) + βΣj=1至 I P(j ㅣ xu)W(x1, x2, ···, xu-1, j, xu+1, ···, xN)
② 理念
○ 要使用动态规划求解多臂老虎机 (MAB),您必须将所有臂的状态视为一个巨大的状态向量 (x1, x2, ⋯, xN)。
○ 随着臂数(N)的增加,状态空间呈指数级增长,使得计算变得不可行。
○ 关键思想: 不要共同考虑所有臂,而是单独分析每个臂,为其分配一个分数(指数),然后选择得分最高的臂。 → 这将复杂的 N 臂问题简化为单臂问题:随机臂与静态臂(“1.5 臂”问题)。
○ 设置: 在您面前,有一台老虎机(随机臂)。在任何时候,您都可以放弃这台机器并退休,以在每个周期(静态臂)永远获得固定奖励(M)(或R*)。
○ 问题: 当随机机处于状态 i 时,退休奖励 M 的多少值使您在“继续赌博”和“立即退休”之间完全无差别? → 该退休奖励水平是状态 (i) 的 Gittins 指数。
③ 数学定义
○ 最佳停止时间(τ):你继续玩机器,当状态变得非常不利以至于你认为“最好退休并选择M”时,你就停止。
○ 直觉:它是你在停止之前(退休前)可以获得的总奖励除以所花费的(折扣后)时间。换句话说,它是你在退休前可以提取的单位时间平均折扣的最大奖励。
④ 最优性证明: 交换论证
○ 令 i 为当前 Gittins 指数 (γ) 最高的臂,j 为第二高的臂。
○ 假设(矛盾)策略 g̃ 首先扮演 j。
○ 通过交换顺序(交换参数),我们可以将策略更改为先玩 i,后玩 j,这是最优策略 g,并且总奖励变得大于或等于。这是因为arm i具有较高的“平均奖励率(指数)”,因此在折扣(β)下,当奖励折扣较小时,最好早点做更好的选择。
○ 定义适当的时间间隔(例如 τi、τj)需要一些额外的代数推导。
> ⑤ 示例1. 假设有N台老虎机,记为M1, …, MN。每台老虎机 Mi 的成功概率为 θi,失败概率为 1 − θi。当我们玩一次时,成功时我们会收到 1 的奖励,失败时会收到 0 的奖励。成功概率 θ1, …, θN 是相互独立的随机变量,取值在 [0, 1] 中,它们的先验分布用 P1(dθ1), …, PN(dθN) 表示(我们假设这些分布允许密度)。在每个时间步,我们只能选择并玩 N 台老虎机中的一台。找到最大化的最优策略
Eg[Σt=0 到 ∞ βt rt]。
⑥ 示例 2. 我们考虑一个具有 J 个队列(节点)的小型网络。在每个节点 j ∈ {1, …, J},最初有 nj 个工作(客户)在排队等待。节点 j 服务单个顾客所需的时间是随机的,其分布具有累积分布函数(CDF)Fj。当客户在节点 j 完成服务时,会发生以下两种情况之一。以概率 qjℓ,客户移动到另一个节点 ℓ 并加入那里的队列;剩余概率为 1 − Σℓ=1 到 J qjℓ,客户完全离开系统。我们假设每当客户在节点 j 完成服务时,我们获得的奖励 rj > 0(例如,rj 可以解释为公司在节点 j 完成一项工作所获得的收入)。系统中只有一台服务器(worker)。因此,每时每刻我们都必须决定“接下来我们应该服务哪个节点的队列?”我们假设没有新客户从外部到达,我们的目标是随着时间的推移最大化总折扣奖励(总折扣收入)。将这种情况视为多臂老虎机(MAB)问题,每个节点 j 对应一个臂。在每个时间步,我们从集合 {1, 2, …, J} 中选择一个操作,并为相应节点队列中的一个客户提供服务。客户接下来去哪里是由该节点的概率 qjℓ 决定的,因此整体排队状态(每个节点上还有多少客户等)演变为下一个状态。所有节点的联合状态就是强盗问题中的“系统状态”。为了使系统看起来更像一个标准的强盗模型,我们可以添加一个虚构的第(J+1)个节点,代表离开系统的客户的目的地,从而使网络“封闭”。没有实际的服务器分配给这个虚构的节点,因此永远不会选择它作为操作;它只是一个代表离开系统的客户流量的设备。通过这种方式,单个服务器在多个队列中选择在哪里花费时间,每当服务完成时接收奖励,并相应地看到队列状态变化的结构是 MAB 的典型示例。如果根本没有到达,每个队列仅在我们选择提供服务时才会缩小,因此问题是一个相对简单的“休息”强盗(参见 Gittins 策略是最优的)。然而,如果顾客不断从外部到达,那么即使他们没有被选择,队列也会改变状态,这个问题就成为“不安分强盗”的一个例子(参见Gittins索引策略不再是最优的,必须诉诸Whittle索引等概念)。
4。高级主题⑴ 去中心化团队(ref、ref、ref)
⑷强盗([参考](https://www.semanticscholar.org/paper/A-dynamic-allocation-index-for-the-discounted-Gittins-Jones/d0c564e32058cd8e5d0bf9455538b64d8a0e2df8), [参考](https://people.eecs.berkeley.edu/~russell/classes/cs294/s11/readings/Gittins:1979.pdf),[参考](https://academic.oup.com/jrsssb/article/42/2/143/7027598), 参考,参考)
⑸ 不安分的强盗([参考](https://www.semanticscholar.org/paper/Restless-bandits%3A-activity-allocation-in-a-changing-Whittle/45196e90c3b265cbcd008af6e1aac97128e525dc),[参考](https://arxiv.org/abs/2306.00196))
⑹ 强盗和自适应控制([参考](https://ui.adsabs.harvard.edu/abs/1987ITAC…32..968A/abstract),[参考](https://people.eecs.berkeley.edu/~ananth/1987-1989/Pravin/MarkovMultiarmedbandit.pdf), 参考)
⑺ 自适应控制([参考](https://www.semanticscholar.org/paper/Asymptotically-Efficient-Adaptive-Choice-of-Control-Graves-Lai/59ef34c2ecca183b7d0ff1788b49f2d5ca3e5ab9), 参考)
输入:2025.08.26 23:34