文献知网节
  • 记笔记
摘要:众所周知,强化学习由两部分组成:主体和环境。为了开发和评价基于强化学习的高速铁路重调度系统的性能,必须首先建立一个模拟高速铁路运行的环境,本文基于Q-learning算法研究单线列车运行调整问题设计离散事件仿真器。从资源的时空供给和约束的两个角度,采用时空拓扑矩阵的形式描述铁路路网和列车运行中的状态,利用状态和"事件触发-状态转移"的机理,设计并搭建了离散事件仿真系统,用于仿真在调度指令不断下达的情况下,高铁路网运行状态的动态变化过程,实现了强化学习中运行环境的功能。为强化学习Agent提供了一个交互式的运行环境,具备了与Agent不断交互的能力,可以有效描述列车运行调整过程的环境、状态、动作、终止条件,以及定义以满足列车晚点时间最小为目标函数的即时奖励函数,该方法具有可扩展性可以适应不同场景。最后本文在MATLAB应用环境下实现了四站三区间,三辆列车的在Q-Learning动态调度算法下的列车运行动态环境的准确模拟,可以实时地获取Agent的调度指令,并且以向量的形式输出当前时刻路网的运行状态和资源占用状态,使得Agent与运行环境的交互成为可能,为下一步深入开展基于QLearning的智能调度算法奠定了基础。
会议名称:

第30届中国过程控制会议(CPCC 2019)

会议时间:

2019-07-31

会议地点:

中国云南昆明

  • 专辑:

    工程科技Ⅱ辑

  • 专题:

    铁路运输

  • 分类号:

    U284.59

  • 手机阅读
    即刻使用手机阅读
    第一步

    扫描二维码下载

    "移动知网-全球学术快报"客户端

    第二步

    打开“全球学术快报”

    点击首页左上角的扫描图标

    第三步

    扫描二维码

    手机同步阅读本篇文献

  • CAJ下载
  • PDF下载

下载手机APP用APP扫此码同步阅读该篇文章

下载:88 页码:303-304 页数:2 大小:390k

引文网络
  • 参考文献
  • 引证文献
  • 共引文献
  • 同被引文献
  • 二级参考文献
  • 二级引证文献
  • 批量下载
相关推荐
  • 相似文献
  • 读者推荐
  • 相关基金文献
  • 相关法规
  • 关联作者
  • 相关视频