姜涵 张健 张海燕 郝威 马昌喜

姜涵, 张健, 张海燕, 郝威, 马昌喜. 基于强化学习的交叉口智能网联车多目标通行控制方法[J]. 交通信息与安全, 2024, 42(1): 84-93. doi: 10.3963/j.jssn.1674-4861.2024.01.010
JIANG Han, ZHANG Jian, ZHANG Haiyan, HAO wei, MA changxi. A Multi-objective Traffic Control Method for Connected and Automated Vehicle at Signalized Intersection Based on Reinforcement Learning[J]. Journal of Transport Information and Safety, 2024, 42(1): 84-93. doi: 10.3963/j.jssn.1674-4861.2024.01.010
doi: 10.3963/j.jssn.1674-4861.2024.01.010

国家重点研发计划项目 2021YFB1600504


    姜涵(2000—),硕士研究生. 研究方向:交通管理与控制. E-mail: jianghan@seu.edu.cn


    张健(1984—),博士,教授. 研究方向:城市智能交通、车联网与车路协同等. E-mail: jianzhang@seu.edu.cn

  • 中图分类号: U491.4

A Multi-objective Traffic Control Method for Connected and Automated Vehicle at Signalized Intersection Based on Reinforcement Learning

  • 摘要: 针对传统控制方法下的智能网联车辆(connected and autonomous vehicle,CAV)在动态交通环境中通行能耗较高且效率较低等问题,研究了基于强化学习的CAV通行控制方法,旨在降低车辆能源消耗,提升车辆通行效率以及行驶舒适度。通过考虑CAV与交叉口信控系统的信息交互和物理环境,收集信号相位和信号配时(SPaT)以及前车速度和位置等信息,构建强化学习框架的状态空间。以电池能量回收的上限作为边界条件,建立CAV的行驶能耗模型,并基于车辆行驶的关键特征指标,如单位时间电能能耗、通行距离以及加速度变化率,设计多目标加权奖励函数。利用层次分析法确定各指标的权重,进而采用深度确定性策略梯度算法对模型进行训练,并通过梯度下降方法对算法参数进行调整和更新。采用SUMO平台开展仿真实验,实验结果表明:在设计的算法控制下的CAV各方面行驶性能最为均衡,相较于DQN算法电能消耗和加速度变化率均值分别降低了9.22%和18.77%;相较于Krauss跟驰模型行程时间缩短了8.39%。本研究提出的CAV通行控制方法在降低车辆能耗、提高行驶效率和舒适性等方面具有较好的可行性和有效性。


  • 图  1  交叉口车辆通行场景示意图

    Figure  1.  Schematic diagram of traffic scene at intersection

    图  2  DDPG算法网络结构

    Figure  2.  Network structure of ddpg algorithm

    图  3  智能网联车控制算法流程图

    Figure  3.  Flow chart of cav control algorithm

    图  4  仿真平台架构

    Figure  4.  Architecture of simulation platform

    图  5  多信号交叉口仿真场景

    Figure  5.  Multi-intersection simulation scene

    图  6  仿真结果分指标对比

    Figure  6.  Comparison of simulation results by indexes

    图  7  不同跟驰模式下CAV行驶轨迹

    Figure  7.  The trajectories of CAV under different car-following modes

    图  8  DDPG控制下CAV沿信号走廊的行驶轨迹

    Figure  8.  The trajectory of CAV along signal corridor under DDPG control

    图  9  不同跟驰模式下CAV行驶速度随时间的变化

    Figure  9.  Variation of CAV's speed with time in different car-following modes

    图  10  不同跟驰模式下CAV加速度变化率随时间的变化

    Figure  10.  Variation of CAV acceleration rate with time in different car-following modes

    表  1  状态空间的参数及含义

    Table  1.   Parameters and description of state space

    参数 含义说明
    车辆速度v(t) 涉及车辆的能耗和效率
    车辆行驶距离d(t) 涉及车辆的能耗和效率
    车辆加速度at 涉及车辆的舒适性。
    前后车速度差Δvt 涉及车辆的安全性
    前后车间隔距离Δxt 涉及车辆的安全性
    交叉口当前相位绿灯剩余时长σ(t) 涉及车辆的效率和安全性。若剩余时长小于车辆以最高允许速度通过交叉口所需时间,则车辆需缓慢减速至停车,否则车辆可适当加速以更快通过交叉口
    表  2  各指标相对重要性系数

    Table  2.   Relative importance coefficient of each index

    指标 电能消耗 通行效率 驾驶舒适度 安全性
    电能消耗 1 3 2 1/3
    通行效率 1/3 1 1/2 1/3
    驾驶舒适度 1/2 2 1 1/3
    安全性 3 3 3 1
    表  3  仿真参数设置

    Table  3.   Simulation parameter settings

    参数 取值
    道路总长L/m 2 200
    相邻交叉口间距D/m 800
    HV设计小时交通量q/(veh/h) 1 600
    HV车身长度lHV/m 5
    HV车体重量mHV/kg 2 000
    HV驾驶人熟练度sigma 0.5
    HV驾驶人反应时间tau/s 1
    CAV车身长度lCAV/m 5
    CAV车体重量mCAV/kg 2 000
    CAV车辆前表面积SCAV/m2 2.600
    车辆速度v(t)/(km/h) (0, 30)
    车辆行驶距离d(t)/m (0,2 200)
    车辆加速度at/(m/s2 (-4.500,4.500)
    前后车相对速度Δvt/(km/h) (0,30)
    前后车间距Δxt/m (0,300)
    当前相位绿灯剩余时长σ(t)/s (0,40)
    空气阻力系数cd 0.250
    滚动阻力系数cr 0.005
    弯道阻力系数cc 0.300
    能量回收因子μ 0.350
    重力加速度g/(m/s2) 9.800
    表  4  不同跟驰模式下的仿真数据

    Table  4.   Simulation data under different car-following modes

    跟驰模式 电能总消耗/Wh 行程时间/s 平均速度/(km/h) 加速度变化率均值/(m/s3
    Krauss 211.326 441 17.959 1.249
    DDPG 217.627 404 19.639 1.199
    DQN 239.185 442 17.918 1.476
    A2C 316.511 478 16.565 2.917
