强化学习笔记(八)- 连续空间的确定性策略

  |  

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  之前我们说的基本都是离散空间内的算法,本文记录连续空间内的算法。在连续空间内,动作的个数往往是无穷的,很难计算出 \(\max_a q(s,a;\boldsymbol{\theta})\)。面对这个问题,我们可以在策略梯度中引入确定性策略。

强化学习笔记(七)- 资格迹

  |  

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  资格迹(Eligibility Trace)是强化学习中一种非常基础的机制,它可以使时序差分学习更加高效,能在回合更新(MC 方法)和单步时序差分更新(TD(0))间进行折中。

强化学习笔记(六)- 策略梯度

  |  

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  之前我们几篇文章提到的算法都是最优价值算法(optimal value algorithm),因为它们在求解最优策略的过程中试图估计最优策略。本文提到的策略梯度(Policy Gradient)算法,它求解最优策略不一定要估计最优价值函数,而试图用含参函数近似最优策略,并通过迭代更新参数值。

强化学习笔记(五)- 函数近似方法

  |  

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  对于有模型的数值迭代算法,无模型的回合更新算法和时序差分更新算法,在每次更新价值函数时都只更新某个状态或状态动作对下的价值估计,这就带来一个问题,如果状态数和动作数巨大的话,甚至无穷大,是不可能做到对这些状态和动作逐一更新的。于是函数近似算法用参数化的模型来近似整个状态价值函数或者动作价值函数,在每次学习时更新函数。

强化学习笔记(四)- 时序差分学习

  |  

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  上文我们提到的 MC 方法,用于回合制任务中,并且必须等到回合结束之后才可以更新价值估计。而时序差分学习( Temporal-Difference Learning)不需要等到回合结束也可以更新价值估计,并且不仅可以用于回合制任务,还可以用于连续性任务。

强化学习笔记(三)- 蒙特卡罗方法

  |  

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  本文开始介绍无模型的方法,无模型的方法需要在没有环境的数学描述下,只依靠经验学习出给定策略的价值函数和最优策略。根据价值函数的更新时机,强化学习又可以分为回合更新算法和时序差分更新算法。本文讨论的事回合更新算法,它只能用于回合制任务,它在每个回合结束更新价值函数,主要利用了蒙特卡洛方法(Monte Carlo Methods)。

强化学习笔记(二)- 动态规划方法

  |  

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  动态规划模型主要适用于有模型的迭代过程,它也利用了 MDP 的性质,它需要有一个非常好的模型作为基础来进行迭代,以此来找到最优策略,并且它的计算开销非常大。虽然 DP 方法的缺点十分明显,但是它的思想还是非常重要的,本文对它做一些简单的记录。

机器学习基础笔记

  |  

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  机器学习也学习了一段时间了,本文总结一些机器学习经常用的知识,做一些笔记。

NAS 学习笔记(六)- Evolution NAS

  |  

版权声明:本文原创,转载请留意文尾,如有侵权请留言, 谢谢

引言

  最近读了一篇在 NAS 中应用Evolutionary Algorithm 的论文 [1],也是 Google Brain 提出的,它利用 NAS 搜出一个网络来解决图像分类的问题,实验效果接近达到了当时的 STOA。它用简单的构建模块和常用的初始条件设置了一个进化过程,主要思想是剔除掉人的参与,让进化算法自动的大规模构建网络架构,从非常简单的网络开始,逐渐找到越来越复杂的网络,到最后这个过程可以找到与手动设计模型性能相当的分类器。

您是第 位小伙伴 | 本站总访问量 | 已经写了 661.2k 字啦

载入天数...载入时分秒...