部分可观测马尔科夫决策过程

定义

一个部分可观测马尔科夫决策过程(POMDP)描述一个代理与环境的关系,由一个7元组$(S,A,T,R,\Omega,O,\gamma)$表示,其中

  • $S$是状态集合;
  • $A$是动作集合;
  • $T$是转移概率函数;
  • $R: S \times A \to \mathbb{R}$是报酬函数;
  • $\Omega$是观测集合;
  • $O$是条件观测概率函数;
  • $\gamma \in [0, 1]$是折扣因子。

在每个时间,环境处于某个状态$s\in S$。代理采取了行动$a\in A$,导致了环境以概率$T(s’\mid s,a)$转移到状态$s’$。同时,代理观测到的是$o\in \Omega$,$o$依赖于行动$a$以及新状态$s’$, 概率为$O(o\mid s’,a)$。最后,代理接收到报酬$r=R(s, a)$。这个过程一直重复下去。POMDP的目标是最大化未来的期望总报酬$\mathbb{E}\left[\sum _{t=0}^{\infty }\gamma^{t}r_{t}\right]$,其中$r_{t}$ 是时间$t$得到的报酬。折扣因子$\gamma$决定了对即时报酬与未来报酬的不同重视程度。

当$\gamma =0$时,代理制关注会产生最大即时报酬的行动;当$\gamma =1$时,代理会着眼于最大化未来报酬之和。

信念马尔科夫决策过程

代理的信念$b(s)$是一个描在某一时刻述处于状态$s$概率的函数。在采取行动$a$、观测到$o$之和,代理需要更新它的信念函数。因为状态转移服具有马尔科夫性,对于信念函数的计算只涉及前一时刻的信念、采取的动作以及目前的观测。更新的操作记为$b’ = \tau(b,a,o)$

在到达$s’$之和,代理以概率$O(o\mid s’,a)$观测到$o\in \Omega$。令$b$为状态空间$S$上的概率分布。$b(s)$代表环境处于状态$s$的概率。给定$b(s)$,在采取行动$a$、观测到$o$之后,

其中$\eta =\frac{1}{\mathbb{P}(o\mid b,a)}$是一个归一化常数,使得$\mathbb{P}(o\mid b,a)=\sum _{s’\in S}O(o\mid s’,a)\sum _{s\in S}T(s’\mid s,a)b(s)$。

马尔科夫信念状态使得我们可以用MDP来描述POMDP。这个信念马尔科夫决策过程会定义到连续状态空间,因为有信念空间$B$是无限的。

正式地,信念马尔科夫决策过程由元组$(B,A,\tau,r,\gamma)$定义,其中

  • $B$是POMDP状态集上的信念空间;
  • $A$是与原POMDP相同的动作集合;
  • $\tau$是信念状态的转移函数;
  • $r:B \times A \to \mathbb{R}$是信念状态上的保存函数;
  • $\gamma$是与原POMDP相同的折扣因子。

$\tau$和$r$需要从原POMDP中计算得到:

其中

报酬函数$r$定义为:

信念马尔科夫决策过程不再是部分可观测,因为在任意时刻,代理知道它的信念状态。

策略和价值函数

与原POMDP不同的是,信念马尔科夫决策过程的所有信念状态运行多种动作发生,因为信念函数的输出是一个概率分布。因此,$\pi$对任意信念$b$输出动作$a=\pi(b)$。

这里我们假设目标函数是最大化无限阶段的期望总折扣报酬。当定义代价为$R$时,目标变为最小化期望代价。

给定初始信念$b_{0}$,策略$\pi$的期望报酬定义为

其中$\gamma<1$是折扣因子。最优策略$\pi^\ast$是由优化长期报酬得到:

最优策略$\pi^\ast$对每一个信念状态产生最高期望报酬,即最优值函数$V^{\ast}$。这个值函数是贝尔曼方程的解:

对有限阶段的POMDPs,最优值函数是分段线性、凸的。它可以用有限的向量集合表示。对无限阶段的POMDPs,最优值函数可以由有限向量集合任意逼近,并且保持凸性。值迭代应用动态规划更新,逐渐改善值函数,直到收敛到$\epsilon$-最优的值函数,保持分段线性和凸性。通过改善值函数,策略也间接得到改善。另外也可以用策略迭代直接改善策略。这与MDP的值迭代和策略迭代相同。

Your support will encourage me to continue to create.