2025年国家公务员考试(技术)第2题]
推荐帖子:【人工智能】【AI技术考试目录】(https://jb243.github.io/pages/714)
a. 随机控制理论
b. 强化学习
问。
下面是一个 4 × 4 的网格板,机器人可以在上面移动。单元格 1 和 16 以灰色标记,是终点。机器人可以从当前位置向东、西、南、北四个方向移动。如果它选择了一个引导到棋盘之外的方向,它就会留在原地并获得“-1”的奖励。如果它选择留在棋盘内的方向,它就会朝该方向移动并获得奖励“0”。当它进入终点时,它会收到“5”的奖励。回答以下问题。
第一季度。
(b) 显示了从起始位置单元格 10(用正方形标记)到终点单元格 1 的移动路径示例。找到该移动问题的状态集、动作集和奖励集。
A1.
状态集:{移动,终端}
动作集:{东、西、南、北、等待}(注:东、西、南、北对应‘移动’状态,等待对应‘终端’状态。)
奖励设置:{-1, 0, 5}
第二季度。
计算⒝的累计奖励(总奖励)。
A2.
0 → 0 → 0 → 0 → 0 → -1 → -1 → 4
因此,累计奖励(总奖励)为4。
练习问题。
受控马尔可夫链公式(来源:ECE 558,密歇根大学)
问题。
假设系统在有限状态空间 S = {1, 2, . 。 。 , I } 在时间 t = 0,1,2,… 时按照固定的转移律 Pt(j i) 演化,如果处于状态 i,则生成成本 ct(i)。在任何阶段,决策者要么让系统不间断地发展,要么进行干预并选择一个动作 u ∈ U,其中 U 是有限的,这导致在时间 t 时产生转移律 Pt(j i, u) 并在时间 t 生成成本 ct(i,u)。将其表述为受控马尔可夫链(又名马尔可夫决策过程)。清楚地识别行动集、成本和转移概率。
答案。
将决策者选择不中断系统表示为动作0,然后追加到动作集𝒰中,得到新的动作集_Ũ_ = {0} ∪ 𝒰;当决策者选择中断系统时,他们通过选择特定的动作 u ε 𝒰 来实现。然后,对于所有 i,j ∈ S 和 t ∈ ℤ+ 定义 Pt(j i,0) = Pt(j i),对于所有 i ∈ S 和 t ∈ ℤ+ 定义 ct(i,0) = ct(i)。然后,新问题包含状态空间 S、动作空间 Ũ、转移核 {Pt(j i,u) : i,j ∈ S andu ε Ũ, ∀t ε ℤ+} 和成本函数 {ct(i,u) : i ∈ S 且 u ε Ũ, ∀t ε ℤ+} 是原始问题的马尔可夫决策过程 (MDP) 表述。
输入:2025.07.14 01:32