基于深度强化学习方法的无人驾驶智能决策控制的研究

发布时间：2024-03-17 04:22

　　无人驾驶的决策控制是无人驾驶技术的核心,它需要根据道路场景的感知信息做出安全、合理的决策,特别是对各种场景下不可控突发状况的决策,面对这一的难题,急需一种能够自主学习且泛化能力极强的智能决策方法。由于深度强化学习不仅能够从零自主学习且具有强大的泛化性能,而且能够通过端到端的方式实现从原始输入到输出的直接控制的优势非常适合无人驾驶中从感知到决策控制的场景。因此将深度强化学习技术应用于无人驾驶决策控制,根据场景为车辆行驶提供智能决策,有着十分重要的研究意义。由于无人驾驶的输出动作是连续的且在无人驾驶动作空间随机探索可能会导致意想不到的后果,因此本文采用深度强化学习中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行无人驾驶的智能决策控制。针对传统DDPG算法收敛慢,不稳定的情况,本文提出一种基于DDPG算法改进的二次采样深度确定性策略梯度算法(DDPG with Two Sample,DDPGwTS)用于无人驾驶的决策控制。一方面在经验回放环节引入二次采样方法,首先根据序列累积回报的分布构造优先级对经验池中的序列进行采样,然后在已...

【文章页数】：68 页

【学位级别】：硕士

【部分图文】：

图1.1无人驾驶产业价值图

一些问题，但仍然无法从根本上解决人自身的因数，因此这迫切需要一种“人车分离”的无人驾驶技术诞生[3]。无人驾驶汽车又称为自动驾驶汽车，其原理是利用车载传感器和全球定位系统等设备获得的车辆本身、周边环境以及所要到达目的地路段的状态信息，根据状态信息来规划出汽车的行驶路线以及控制车辆....

图1.2无人驾驶车辆系统架构

辽宁工程技术大学硕士学位论文4THMR智能汽车能够在规定的环境下实现自动跟踪。20世纪80年代国防科技大学研制出基于视觉的智能汽车[14]。2011年红旗HQ3完成了从长沙到武汉286公里的高速全程无人驾驶试验，创造了中国自主研制的无人驾驶汽车在复杂交通状况下无人驾驶的新纪录[1....

图1.4自主刹车系统

辽宁工程技术大学硕士学位论文7强化学习（ReinforcementLearning，RL）是可以从零学习的智能算法，它利用智能体与环境不停的交互，根据获得的累计回报不停的改进自身策略，直到学习到最优策略。现如今Waymo、百度以及各大无人驾驶公司都在研究将深度强化学习技术应用于无....

图1.5深度驾驶系统框架

辽宁工程技术大学硕士学位论文8图1.5深度驾驶系统框架Figure1.5Deepdrivingsystemframework针对目前无人驾驶汽车主要面对的技术瓶颈是关于复杂不可控场景下的智能决策控制。基于规则的决策控制方法很难创建能够覆盖所有场景的规则库，无法面对高度复杂实际场景....

本文编号：3930502

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/qiche/3930502.html

上一篇：乘用车机械转向器异响及断裂问题分析
下一篇：基于WIM的重车荷载特性及模型研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|