强化学习示例[01-10]
推荐文章:【控制理论】【随机控制理论】(https://jb243.github.io/pages/895)
Q4。
考虑状态空间 𝒮 = {1, 2, …, I} 上的有限状态遍历离散时间马尔可夫链 {Xt}t∈Z+ ,具有转移矩阵 P 和初始分布 μ(对于 X0)。对于(有界)成本向量 C,令 (L, J) 为 (C, P) 的泊松方程的(有界)解,即 (L, J) 满足(向量)方程
然后显示以下内容:
(a) 上式可写为
其中,如果 Xt = i,则 L(Xt) = L(i)(列向量 L 的第 it 分量)。
(b) 然后,使用马尔可夫性质表明随机过程 {Mt}t∈Z+ 给出
是关于过滤的鞅 {ℱt}t∈Z+,其中 ℱt = σ(X0, X1, …, Xt)。由于 𝔼[ㅣMtㅣ] < +∞ 由 C、L 和 J 有界性得出,您只需证明性质 (2)——适应性,即 Mt 是 ℱt 可测量——,并且(3)―𝔼[Mt+1ㅣℱt] = Mt w.p. 1. 对于性质 (3),您需要使用本问题的 (a) 部分。
A4。
(一)
让我们检查给定泊松方程的维数
这里,P(i,j)(第i行,第j列)表示转移概率ℙ(jㅣi)。因此,方程的第 i 个分量是
等价地,给定 Xt = i,它可以表示为
根据转换的含义,我将 L(j) 替换为 L(Xt+1)。
(二)
M0 = L(X0sub>) (可通过 X0 测量)
M1 = L(X1) + C(X0) - J(可通过 X0:1 测量)
M2 = L(X2) + C(X0) + C(X1) - 2J(可通过 X0:2 测量)
一般来说,当 X-1(A) = {w ε Ω : X(w) ε A} ε ℱ ∀ A ε 𝒢 给定一对 (Ω, ℱ) 和 (ℝ, 𝒢) 时,X: Ω → ℝ 是可测量的。值得注意的是,可测量性可以在没有测量 ℙ 的情况下定义,并且 𝒢 通常设置为 𝒢 = ℬ(ℝ),其中 ℬ 是 Borel σ 代数。根据上述观察,我们可以以同样的理由考虑 X0:t 对于 Mt 的反函数,特别是在有限阶段和有限状态集以及反函数范围的存在性的情况下。因此,Mt 是 ℱt 可测量的。
显然,ℱ0 ⊆ ℱ1 ⊆ ℱ2 ⊆ ⋯ (∵ σ(X0:t-1) ⊆ σ(X0:t)),因此我们可以找到过滤的适应性属性。所以问题是 𝔼[Mt+1ㅣℱt] = Mt 是否为真。这意味着 Mt+1 的最佳预测可以投影到 ℱt 可测空间上,这有利于在当前条件下进行未来预测。使用(a),我们得到
此处,Doob 定理指出 σ(X1, …, Xn) 与具有 g(X1, …, Xn) 形式的任何函数相同。具有过滤性质 {ℱt}t∈ℤ+ 和已经证明的属性 (1)、(2) 和 (3),{Mt}t∈ℤ+ 是鞅。
Q5。
令 (Xt)t≥0 为状态空间为 S 的随机过程。令 P 为函数 f : S → ℝ 上的转移算子,并令 I 表示恒等算子。对于每个有界函数 f : S → ℝ,定义
Mtf = f(Xt) - f(X0) - Στ = 0 到 (t-1) (P - I)f(Xτ),
设 ℱt = σ(X0, …, Xt) 为 X 生成的自然过滤。证明以下两个语句是等价的:
-
(Xt)t≥0是一个带有转移算子P的马尔可夫链。
-
对于每个有界函数 f,过程 (Mtf)t≥0 是相对于过滤 (ℱt)t≥0 的鞅。
A5。
证明 1 → 2
Mt+1f - Mtf = f(Xt+1) - f(Xt) - (P-I)f(Xt) = f(Xt+1) - Pf(Xt)
如果 (Xt) 是具有转移概率矩阵 P 的马尔可夫链,则 𝔼[f(Xt+1) ㅣ ℱt] = Pf(Xt)
∴ 𝔼[Mt+1f - Mtf ㅣ ℱt] = 𝔼[f(Xt+1) - Pf(Xt) ㅣ ℱt] = 0
∴ 𝔼[Mt+1f ㅣ ℱt] = Mtf,所以 Mtf 是鞅。
2 → 1 的证明
Mt+1f - Mtf = f(Xt+1) - f(Xt) - (P-I)f(Xt) = f(Xt+1) - Pf(Xt)
由于 Mtf 是鞅,所以 𝔼[Mt+1f - Mtf ㅣ ℱt] = 𝔼[f(Xt+1) - Pf(Xt) ㅣ ℱt] = 0
即,对于所有有界 f,成立 𝔼[f(Xt+1) ㅣ ℱt] = Pf(Xt)。
它表明,如果给定总的过去历史ℱt,则下一个分布仅由Xt决定。 → 1 步马尔可夫性质。
如果重复应用,则成立𝔼[g(Xt+k) ㅣ ℱt] = Pkg(Xt),即总马尔可夫性质。
Q8。
在抛硬币游戏中,个人的赔率为 3 比 1,只要出现反面,她就获胜。然而,她怀疑硬币是有偏差的,并且对于每次抛掷出现正面的概率 p,具有 CDF F(p) 和 pdf f(p) 的先验概率分布。最多允许掷 T 枚硬币。个人的目标是根据迄今为止的游戏结果来确定决定是否继续或停止参与游戏的策略,以最大化她的收入。
(i) 确定问题的信息状态并写下确定其演化的方程。
(ii) 写出该问题的动态规划。
A8。
信息状态可以定义为后验概率ℙ(结果ㅣ先验)。
情况 1. 对于一般信息状态,
情况1. 对于具体信息状态,
Q9。证明 W∞(i), i=1,…,I 是线性规划的解: 最大化 Σi=1 至 I z(i) 且满足 z(i) ≤ c(i,u) + βΣj=1 至 I Pij(u) z(j), ∀u,i
A9。
令 β ε (0, 1)、概率转移矩阵 P(u) 和一步成本 c 给出。定义 Bellman 算子 T 为
W∞ 是该方程的唯一不动点:W∞ = TW∞。对于所有的我和你,我们有
所以 W∞(i) 也满足给定的不等式约束。由于约束对所有 u 都成立,因此我们有
这里我们可以看到算子T的单调性:
因此,z ≤ Tz ≤ T2z ≤ … ≤ limn→∞ Tnz = W∞。 Banach不动点定理和贝尔曼收缩映射已经保证了W∞的唯一性以及任何z收敛于W∞的事实。此外,任何可行的 z 的边界如下:
因此 Σi z(i) ≤ Σi W∞(i)。综上所述,W∞是满足给定线性规划约束的可行解,并且由于对于所有可行z,z ≤ W∞,因此最大化Σi z(i)的解是z = W∞,并且该W∞是唯一的。
Q10。
证明最小成本是线性规划的解:在 J* + w(i) ≤ c(i,u) + Σj=1 to I Pij(u)w(j) 的条件下最大化 J*,1 ≤ i ≤ I,u ∈ U。
A10。
我们可以定义 Jopt* 如下: Jopt* + h(i) = minu∈U {c(i,u) + Σj Pij(u)h(j)}, ∀i。如果我们设置w(i) = h(i),我们知道Jopt*,这是LP可行解,实现了最小成本,这意味着
对于任意 i、u 和 LP 可行解 L,我们有
令 g 为最优固定策略,其长期平均成本为 Jopt*。然后
在这里,我使用了样本路径最优性(更强的说法),它可以从 Martingale 差分序列(MDS)导出。令 J* := su{J ㅣ ∃w s.t. (J,w)是LP可行}是LP的最优值。由于对于每个 LP 可行 J,Jopt* ≥ J,我们有 Jopt* ≥ J*。因此,贝尔曼最优性方程中的最小成本 Jopt* 与 max J* s.t. 中的 J* 相同。 J* + w(i) ≤ c(i, u) + Σj Pij(u) w(j)。
输入:2025.11.21 01:30