强化学习笔记(一)- Markov 决策过程模型

  |     |   本文总阅读量:

版权声明:本文原创,转载请留意文尾,如有侵权请留言,谢谢

引言

  这几个月来断断续续看了几本强化学习的书,做点笔记。本文就先简单的记录关于马尔科夫决策过程的一些内容。

强化学分类

  强化学习按照任务和算法分类。

按任务分类

  • 单智能体任务和多智能体任务
  • 回合制任务和连续性任务
  • 离散时间环境和连续时间环境
  • 离散动作空间和连续动作空间
  • 确定性环境任务和非确定性环境任务
  • 完全可观测环境和非完全可观测环境

按算法分类

  • 同策学习和异策学习
  • 有模型学习和无模型学习
  • 回合更新和时序差分更新
  • 基于价值和基于策略
  • 深度强化学习

马尔科夫决策过程(MDP)

  记录 MDP 的几个关键公式。

状态转移概率

\[ p\left(s^{\prime} | s, a\right) \doteq \operatorname{Pr}\left\{S_{t}=s^{\prime} | S_{t-1}=s, A_{t-1}=a\right\}=\sum_{r \in \mathcal{R}} p\left(s^{\prime}, r | s, a\right) \]

“状态—动作”期望奖励

\[ r(s, a) \doteq \mathbb{E}\left[R_{t} | S_{t-1}=s, A_{t-1}=a\right]=\sum_{r \in \mathcal{R}} r \sum_{s^{\prime} \in \mathcal{S}} p\left(s^{\prime}, r | s, a\right) \]

"状态-动作-下一状态"期望奖励

\[ r\left(s, a, s^{\prime}\right) \doteq \mathbb{E}\left[R_{t} | S_{t-1}=s, A_{t-1}=a, S_{t}=s^{\prime}\right]=\sum_{r \in \mathcal{R}} r \frac{p\left(s^{\prime}, r | s, a\right)}{p\left(s^{\prime} | s, a\right)} \]

状态价值函数

\[ v_{\pi}(s) \doteq \mathbb{E}_{\pi}\left[G_{t} | S_{t}=s\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} | S_{t}=s\right], \text { for all } s \in \mathcal{S} \]

动作价值函数

\[ q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} | S_{t}=s, A_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} | S_{t}=s, A_{t}=a\right] \]

Bellman 期望方程(Bellman Expectation Equation)

  Bellman 期望方程经常用于策略评估(policy evaluation),主要有两部分组成:

\[ \begin{aligned} v_{\pi}(s) & \doteq \mathbb{E}_{\pi}\left[G_{t} | S_{t}=s\right] \\ &=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma G_{t+1} | S_{t}=s\right] \\ &=\sum_{a} \pi(a | s) \sum_{s^{\prime}} \sum_{r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma \mathbb{E}_{\pi}\left[G_{t+1} | S_{t+1}=s^{\prime}\right]\right] \\ &=\sum_{a} \pi(a | s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma v_{\pi}\left(s^{\prime}\right)\right], \quad \text { for all } s \in \mathcal{S} \end{aligned} \]

最优策略

  最优策略 \(\pi_*\) 是指所有的策略都小于等于这个策略。最优策略的价值函数称为最优价值函数,它有两种形式。

最优状态价值函数

\[ v_{*}(s) \doteq \max _{\pi} v_{\pi}(s) \]

最优动作价值函数

\[ q_{*}(s, a) \doteq \max _{\pi} q_{\pi}(s, a) \]

  有时对于同一种情况可能存在多个最优策略,事实上这些最优策略总是具有相同的价值函数,所以对于同时存在多个最优策略的情况,任取一个最优策略来考察不失一般性,其中一种方法是:

\[ \pi_{*}(s) = \mathop{\arg\max}_{a \in A} q_{*}(s,a) \]

Bellman 最优方程(Bellman Optimal Function)

  所谓的 Bellman 最优方程其实就是把最优函数的性质带入 Bellman 期望方程:

\[ \pi_*(a|s) = \begin{cases} 1, & \mathop{\arg\max}_{a^{\prime} \in A} q_{*}(s,a^{\prime}) \\ 0, & \text{others} \end{cases} \]

  它其实也就是由两部分组成,一是用最优动作价值函数表示最优状态价值函数:

\[ v_{*}(s) =\max _{a \in \mathcal{A}(s)} q_{\pi_{*}}(s, a) \]

  二是用最优状态价值函数表示最优动作价值函数:

\[ \begin{aligned} q_{*}(s, a) =\sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma v_{*}\left(s^{\prime}\right)\right] \end{aligned} \]

  由此,我们其实也可以得到用最优状态价值函数表示最优状态价值函数:

\[ \begin{aligned} v_{*}(s) &=\max _{a \in \mathcal{A}(s)} q_{\pi_{*}}(s, a) \\ &=\max _{a} \mathbb{E}_{\pi_{*}}\left[G_{t} | S_{t}=s, A_{t}=a\right] \\ &=\max _{a} \mathbb{E}_{\pi_{*}}\left[R_{t+1}+\gamma G_{t+1} | S_{t}=s, A_{t}=a\right] \\ &=\max _{a} \mathbb{E}\left[R_{t+1}+\gamma v_{*}\left(S_{t+1}\right) | S_{t}=s, A_{t}=a\right] \\ &=\max _{a} \sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma v_{*}\left(s^{\prime}\right)\right] \end{aligned} \]

  同理,可以得到用最优动作价值函数表示最优动作价值函数:

\[ \begin{aligned} q_{*}(s, a) &=\mathbb{E}\left[R_{t+1}+\gamma \max _{a^{\prime}} q_{*}\left(S_{t+1}, a^{\prime}\right) | S_{t}=s, A_{t}=a\right] \\ &=\sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma \max _{a^{\prime}} q_{*}\left(s^{\prime}, a^{\prime}\right)\right] \end{aligned} \]

总结

  MDP 是 RL 中最重要和最经典的数学模型,本文记录了一些它的公式以及一种求解 MDP 最优策略的方法。

Refer

相关内容


坚持原创技术分享,您的支持将鼓励我继续创作,π(3.14)元就够啦!



文章目录
  1. 1. 引言
  2. 2. 强化学分类
    1. 2.1. 按任务分类
    2. 2.2. 按算法分类
  3. 3. 马尔科夫决策过程(MDP)
    1. 3.1. 状态转移概率
    2. 3.2. “状态—动作”期望奖励
    3. 3.3. "状态-动作-下一状态"期望奖励
    4. 3.4. 状态价值函数
    5. 3.5. 动作价值函数
    6. 3.6. Bellman 期望方程(Bellman Expectation Equation)
    7. 3.7. 最优策略
      1. 3.7.1. 最优状态价值函数
      2. 3.7.2. 最优动作价值函数
      3. 3.7.3. Bellman 最优方程(Bellman Optimal Function)
  4. 4. 总结
  5. 5. Refer
  6. 6. 相关内容
您是第 位小伙伴 | 本站总访问量 | 已经写了 670.5k 字啦

载入天数...载入时分秒...