具有不确定性的运动计划是自动驾驶车开发的主要挑战之一。 本文聚焦于有限的视场、屏蔽和传感距离限制引起的感知不确定性。 通常,考虑屏蔽区域和传感器感知范围外的隐藏目标这一假设来解决这个问题,确保被动的安全。 但是,这可能会导致保守的计划和昂贵的计算,特别是在需要考虑许多假设目标的情况下。
作者提出基于强化学习(RL )的解决方案,针对最坏的结果通过优化来处理不确定性。 该方法与传统的RL相反,传统的RL代理只是试图最大化平均预期报酬,是一种不安全、稳健的方法,但该方法建立在分布rl(distributionalrl )上,其战略优化方法是随机的该修正方式适用于一系列RL算法。 作为概念验证,这里适用于两种不同的RL算法——软件行为准则(sac )和深度网络(dqn )。
该方法针对两个具有挑战性的驾驶场景,即遮挡时的行人穿越和有限视野的弯曲道路进行评价。 该算法采用SUMO交通模拟器进行训练和评估。 与传统的RL算法相比,提出的方法用于生成更好的运动规划行为,等同于人的驾驶风格。
RL方法主要有基于价值和基于战略两种。 本文分别讨论两种方法的不确定性问题。
分布RL (论文“distributionalreinforcementlearningwithquantileregression,”aaconferenceonartificialintelligence,2018 )为各状态
估计RL中随机变量分布的一种有效方法是分数回归(Quantile Regression,QR ),由n个分数定义的分布是其第一个分数可能的报酬近似的下限。 在这种方法中,QR-DQN可以应用于包含价值函数的任何RL算法。 为此,有必要强化价值函数,推测n个分位数,近似其分布。
如果用分位数回归(QR )估计分位数的价值,则回归过程按价值最低的顺序排序。 因此,将最初的价值直接作为下限估算使用。 该方法被称为维护QR-dqn(cqr-dqn )。另一个RL算法SAC (论文“软件反应器-临界3360关闭-政策导向装置”iclr 220 这里用分位数回归(QR )扩展SAC,即QR-SAC。
实际上,Q -网络扩展到了估计分位数。 然后,如QR-DQN,将状态-动作对的Q-值,即分位数的最初价值作为下限进行估计。 据此,修正QR-DQN的分布Bellman方程,可以得到严格的分布SAC Bellman更新规则。 该方法被称为维护QR-sac(cqr-sac )。
在输入的感知中,OGM识别遮蔽区域的相关信息、道路网络的光栅图像、道路使用者可能存在的位置。 另外,运动规划者最好通过OGM感知目标,不需要提供场景目标的明确信息。 为了解决这个运动规划问题,在Frenet框架中搜索最佳轨迹。 这类似于Frenet框架的传统运动规划方法。
在Frenet框架中,沿车道中心的轨迹是直线轨迹,从而简化了搜索空间。 每个轨迹包括当前速度、当前横向偏移、最终速度和最终横向偏移。 该轨迹建立后,车辆的速度和横向位置在规定的时间内按照一次指数轨迹从初始值逐渐变化到最终值。
RL智能体的输入包括2帧(当前和前一个时刻) OGM、道路网络当前帧和当前速度,报酬定义为安全、舒适性、移动性等方面。