看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于竞争循环双Q网络的自适应交通信号控制 收藏
基于竞争循环双Q网络的自适应交通信号控制

基于竞争循环双Q网络的自适应交通信号控制

作     者:陆丽萍 程垦 褚端峰 吴超仲 邱雨洁 LU Li-ping;CHENG Ken;CHU Duan-feng;WU Chao-zhong;QIU Yu-jie

作者机构:武汉理工大学计算机与人工智能学院湖北武汉430070 武汉理工大学智能交通系统研究中心湖北武汉430063 

基  金:国家重点研发计划项目(2021YFB2501104) 

出 版 物:《中国公路学报》 (China Journal of Highway and Transport)

年 卷 期:2022年第35卷第8期

页      码:267-277页

摘      要:为了更加有效且可靠地自适应协调交通流量,以减少车辆的停车等待时间为目标,提出了3DRQN(Dueling Double Deep Recurrent Q Network)算法对交通信号进行控制。算法基于深度Q网络,利用竞争架构、双Q网络和目标网络提高算法的学习性能;引入了LSTM网络编码历史状态信息,减少算法对当前时刻状态信息的依赖,使算法具有更强的鲁棒性。同时,针对实际应用中定位精度不高、车辆等待时间难以获取等问题,设计了低分辨率的状态空间和基于车流压力的奖励函数。基于SUMO建立交叉口的交通流模型,使用湖北省赤壁市交叉口收集的车流数据进行测试,并与韦伯斯特固定配时的策略、全感应式的信号控制策略和基于3DQN(Dueling Double Deep Q Network)的自适应控制策略进行比较。结果表明:所提出的3DRQN算法相较上述3种方法的车辆平均等待时间减少了25%以上。同时,在不同车流量及左转比例的场景中,随着左转比例和车流量的增大,3DRQN算法的车辆平均等待时间会有明显上升,但仍能保持较好效果,在车流量为1 800 pcu·h^(-1)、左转比例为50%的场景下,3DRQN算法的车辆平均等待时间相比3DQN算法减少约15%,相比感应式方法减少约24%,相比固定时长的方法减少约33%。在车流激增、道路通行受限、传感器失效等特殊场景下,该算法具有良好的适应性,即使在传感器50%失效的极端场景下,也优于固定时长的策略10%以上。表明3DRQN算法具有良好的控制效果,能有效减少车辆的停车等待时间,且具有较好的鲁棒性。

主 题 词:交通工程 交叉口信号控制 深度强化学习 深度Q网络 

学科分类:08[工学] 082303[082303] 082302[082302] 0823[工学-农业工程类] 

核心收录:

D O I:10.19721/j.cnki.1001-7372.2022.08.025

馆 藏 号:203114372...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分