2025年国家公务员考试（技术）第2题]

推荐帖子：【人工智能】【AI技术考试目录】(https://jb243.github.io/pages/714)

问。

下面是一个 4 × 4 的网格板，机器人可以在上面移动。单元格 1 和 16 以灰色标记，是终点。机器人可以从当前位置向东、西、南、北四个方向移动。如果它选择了一个引导到棋盘之外的方向，它就会留在原地并获得“-1”的奖励。如果它选择留在棋盘内的方向，它就会朝该方向移动并获得奖励“0”。当它进入终点时，它会收到“5”的奖励。回答以下问题。

第一季度。

(b) 显示了从起始位置单元格 10（用正方形标记）到终点单元格 1 的移动路径示例。找到该移动问题的状态集、动作集和奖励集。

A1.

状态集：{移动，终端}

动作集：{东、西、南、北、等待}（注：东、西、南、北对应‘移动’状态，等待对应‘终端’状态。）

奖励设置：{-1, 0, 5}

第二季度。

计算⒝的累计奖励（总奖励）。

A2.

0 → 0 → 0 → 0 → 0 → -1 → -1 → 4

因此，累计奖励（总奖励）为4。

练习问题。

受控马尔可夫链公式（来源：ECE 558，密歇根大学）

问题。

假设系统在有限状态空间 S = {1, 2, . 。。 , I } 在时间 t = 0,1,2,… 时按照固定的转移律 P_t(j i) 演化，如果处于状态 i，则生成成本 c_t(i)。在任何阶段，决策者要么让系统不间断地发展，要么进行干预并选择一个动作 u ∈ U，其中 U 是有限的，这导致在时间 t 时产生转移律 P_t(j i, u) 并在时间 t 生成成本 c_t(i,u)。将其表述为受控马尔可夫链（又名马尔可夫决策过程）。清楚地识别行动集、成本和转移概率。

答案。

将决策者选择不中断系统表示为动作0，然后追加到动作集𝒰中，得到新的动作集_Ũ_ = {0} ∪ 𝒰；当决策者选择中断系统时，他们通过选择特定的动作 u ε 𝒰 来实现。然后，对于所有 i,j ∈ S 和 t ∈ ℤ₊ 定义 P_t(j i,0) = P_t(j i)，对于所有 i ∈ S 和 t ∈ ℤ₊ 定义 c_t(i,0) = c_t(i)。然后，新问题包含状态空间 S、动作空间 Ũ、转移核 {P_t(j i,u) : i,j ∈ S andu ε Ũ, ∀t ε ℤ₊} 和成本函数 {c_t(i,u) : i ∈ S 且 u ε Ũ, ∀t ε ℤ₊} 是原始问题的马尔可夫决策过程 (MDP) 表述。

输入：2025.07.14 01:32

7441

2025年国家公务员考试（技术）第2题]

问。

第一季度。

A1.

第二季度。

A2.

练习问题。

问题。

答案。

results matching ""

No results matching ""