文献知网节
  • 记笔记

多步截断SARSA强化学习算法

李春贵林海涛刘永信

广西工学院计算机系内蒙古大学自动化系 广西柳州545006内蒙呼和浩特010021

摘要:提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)需要大量的计算
  • DOI:

    10.16375/j.cnki.cn45-1395/t.2002.01.001

  • 专辑:

    工程科技Ⅱ辑; 信息科技

  • 专题:

    自动化技术

  • 分类号:

    TP181

  • 手机阅读
    即刻使用手机阅读
    第一步

    扫描二维码下载

    "移动知网-全球学术快报"客户端

    第二步

    打开“全球学术快报”

    点击首页左上角的扫描图标

    第三步

    扫描二维码

    手机同步阅读本篇文献

  • HTML阅读
  • CAJ下载
  • PDF下载

下载手机APP用APP扫此码同步阅读该篇文章

下载:100 页码:1-4 页数:4 大小:102k

相关推荐
  • 相似文献
  • 读者推荐
  • 相关基金文献
  • 关联作者
  • 相关视频