Chinese Journal of Ship Research
AUV大尺度欠驱动高速 导航系统研制
中最为关键的部分,可以间接地指定要解决的任务目标。在设计激励函数时,需要尽可能考虑以下因素[16-17]: 1)到达目的地。鼓励无人驾驶船舶按照既定的路由寻径航线航行到目的地,越接近目的地,处罚就会越小,因此距离项设置为负值。
(5)
R =- λdistance (x - x goal)2 + ( y - y goal)2 distance式中:λdistance 为距离对激励函数的影响权重;(x y)为无人驾驶船舶船位;(x goal y goal) 为目的地位置。2)偏离航线。在航行至目的地途中,均应按照既定的路由寻径航线航行,即若选择的动作 a = π(s) 有可能使
船舶偏离既定航线,则应给予相应的惩罚。(6) R =- λoffcourse D offcourse offcourse式中: λoffcourse 为偏离航线对激励函数的影响权重;D 为偏离航线的距离。offcourse 3)安全性和避碰。MDP在 模型中,将无人驾驶船舶的周边划分为有限状态空间方格,远离有可能碰撞的方格应得到奖励,接近碰撞时,则应加大惩罚。Nobs R =- λcollisions Ú ( (x -x )2 + ( y - yobsi )2 < Z 0) collisions obsi i =1
7 ( )式中,λcollisions 为碰撞对激励函数的影响权重;N obs为当前阶段需要避让的障碍物数量; Ú 为符号“或”;(xobsi y )为障碍物位置,下标i表示障碍物obsi数量,i=1,…,N;Z0 为船舶航行安全会遇距离[18],一般取
(8) Z0 = 0.002 893L3 + 0.303 744L船舶安全会遇距离与船舶尺度(船长 L )有关,船型越大,需要的安全会遇距离就越大。
3.3 智能避碰决策模型
将采集到的状态信息作为决策模块的输入, DRL探索和挖掘驾驶员历史操纵行为,通过 学习在未知环境中的最优航行策略。无人驾驶船舶可以收集当前船舶的航行状态信息,并评估障碍物是否在安全会遇距离内。根据这些信息和激励函数,进行大量的自我测试,完成智能决策避碰的任DRL务,最终到达目的地。基于 的无人驾驶船舶智能避碰决策算法如下。1)数据采集。在状态 s0下随机采取搜索行为,样本训练周期为T ,D为样本数据集。 每个样本数据集 D 应包括以下数据:当前状态 s 、行为 a 、激励 r 、采取行为的下一状态 s′ 、终止条件I。2)需求参数。包括值函数中的迭代参数ω 、状态集 S 、搜索行为的随机概率 P(s′ r|s a) 、激励衰减因子 γ 。3)运算过程。Initialize the optimal value function Q(s) , arbitrarily "s Î S repeat D¬0 for do s Î S q ¬ Q(s) Q(s) ¬ max a[r + γ å s′ rP(s′ r|s a)Q(s′)]
D¬ max(D| q - Q(s ) |) end for until D<0 π*(s) » arg max a[r + γ å s′ rP(s′ r|s a)Q(s′)]
4 仿真实验及分析
DRL本节以案例仿真实验来验证基于的无人驾驶船舶智能避碰决策模型的有效性。在所有实验中,船舶使用相同的动力学参数。仿真环境Matlab 2016a为 ,借助其强大的计算能力和绘图3功能完成本文工作。模型仿真程序流程如图所示。
无人驾驶船舶智能避碰决策框架由2个部分组成:趋向目标和避障。当环境中不存在障碍物或障碍物不在安全会遇距离内时,无人驾驶船舶将调整方向朝转向点航行;当障碍物出现在安全会遇距离内时,无人驾驶船舶利用Q 学习策略进
行避障,可选动作包括左转和右转。当实际Q 值与期望 Q′值的误差小于参数ω 时 (| Q′ - Q |< ω) ,
迭代结束。首先,对参数进行设置:学习率α = 0.5 ,激励衰减因子 γ = 0.8 ,迭代参数 ω = 0.02 ,船速 v = 18 kn ,动态障碍物速度 v0 = 18 kn 。r
4.1 静态障碍
3 50本文设置了 个静态障碍物,经过 次训练后实验,发现无人驾驶船舶虽然能成功规避障碍100物,但是并非最优策略。在进行 次训练后实50验,发现无人驾驶船舶智能避碰决策效果比 次训练的效果好。由此可见,无人驾驶船舶智能避碰决策模型训练次数越多,所得到的策略则越优,这进一步表明模型中基本奖励功能的改进是必要4的。无人驾驶船舶智能避碰效果如图 所示。图中,黑色实心方框表示静态障碍物,虚心小圆圈表示无人驾驶船舶。
4.2 动态障碍
本研究通过设定无人驾驶船舶和动态障碍物的位置进行智能避碰决策训练,无人驾驶船舶和动态障碍物的速度均设置为18 kn 。首次实验时,无人驾驶船舶在航行一段步长后与障碍物同时进100入彼此的船舶领域内,经过 次训练后,无人驾驶船舶识别出动态障碍物处于本船右前方,判断出本船为让路船,并采取向右转向绕过动态障碍物后方,最终成功规避动态障碍物后到达目标5点。图 所示为无人驾驶船舶避让轨迹图。图中,黑色圆圈表示无人驾驶船舶轨迹,红色圆圈表示动态障碍物轨迹,Start0表示动态障碍物的起始5(b)中,本船和动态障碍物的轨迹交叉表点。图示是本船避让后穿过动态障碍物后方的历史轨迹。 2通过分析上述 组实验可以看出,实验初期,由于无人驾驶船舶对未知环境的交互不足,最终智能避碰决策失误导致陷入冲突或策略并非最优。多次训练后,无人驾驶船舶通过强化学习与环境交互和经验累积,完成了对未知环境的自适应,最终取得相对较好的避碰决策。
5结语
通过将深度学习与强化学习结合,提出了一DRL种基于 的无人驾驶船舶智能避碰决策方法,使无人驾驶船舶在无环境先验知识的情况下,通过与环境的交互,提高学习能力,进行智能避碰决策和路径规划。在不同障碍环境下的仿真实验结果表明,本文所提无人驾驶船舶智能避碰决策系统具有较强的自学习能力,可通过在线学习,顺利完成在未知环境下的自适应避障,证明了本文智能决策模型的有效性。在今后的研究中,可以不断增加未知环境的复杂度来改进算法,以训练和提高智能避碰决策模型的自适应能力,使其更好地应用于实际状态空间中。
参考文献:
[ 1] 赵忆文,谈大龙.基于速度矢量可行度的移动机器人多行为综合决策方法[J].信息与控制,2001,30(1): 72-75. ZHAO Y W,TAN D L. Multi-behavior integrated-deci⁃ sion method based on feasibility of velocity vectors[J]. Information and Control,2001,30(1):72-75(in Chi⁃ nese). [ 2] 张晓东,童剑,郭敏,等.舰船物资转运方案计算机
辅助决策算法研究[J].中国舰船研究,2011,6(4): 104-110. ZHANG X D,TONG J,GUO M,et al. Computer aid⁃ ed decision-making method for material transfer plan⁃ ning on ship deck[J]. Chinese Journal of Ship Re⁃ search,2011,6(4):104-110(in Chinese). 3] 王斌明. [ 基于多传感器信息融合的移动机器人避障研究[D].南京:南京理工大学,2006. [4] TANAKA Y, JIY ,YAMASHITA A,et al. Adaptive traversability analysis and behavior generation method for mobile robots on rough terrain[J]. Journal of the Ja⁃ pan Society for Precision Engineering,2015,81(12): 1119-1126. 5] 陈雪梅,田赓,苗一松,等. [ 城市环境下无人驾驶车
法[J].辆驾驶规则获取及决策算 北京理工大学学报,2017,37(5):491-496. CHEN X M,TIAN G,MIAO Y S,et al. Driving rule acquisition and decision algorithm to unmanned vehi⁃ cle in urban traffic[J]. Transactions of Beijing Institute of Technology,2017,37(5):491-496(in Chinese). 6] 杜明博. [ 基于人类驾驶行为的无人驾驶车辆行为决
策与运动规划方法研究[D].合肥:中国科学技术大
学,2016. 7] 田赓. [ 复杂动态城市环境下无人驾驶车辆仿生换道
决策模型研究[D].北京:北京理工大学,2016. 8 TEMIZER S,KOCHENDERFER M J,KAELBLING [ ] LP ,et al. Collision avoidance for unmanned aircraft using Markov decision processes [C]//AIAA Guid⁃ ance,Navigation,and Control Conference. Toronto, Ontario,Canada:AIAA,2010. [9] FURDA A,VLACIC L. Enabling safe autonomous driv⁃ ing in real-world city traffic using multiple criteria de⁃ cision making[J]. IEEE Intelligent Transportation Sys⁃ tems Magazine,2011,3(1):4-17. [10] LIX XUX ,ZUO L. Reinforcement learning based , overtaking decision-making for highway autonomous driving[C]//6th International Conference on Intelli⁃ gent Control and Information Processing. Wuhan, China:IEEE,2016:336-342. [11] ZHENG R, LIU C M ,GUO Q. A decision-making method for autonomous vehicles based on simulation and reinforcement learning[C]//2013 International Conference on Machine Learning and Cybernetics. Tianjin,China:IEEE,2013:362-369. 12] ,等. 述[J]. [ 刘全,翟建伟,章宗长 深度强化学习综
计算机学报,2018,41(1):1-27. LIU Q,ZHAI J W,ZHANG Z Z,et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers,2018,41(1):1-27(in Chinese). 13] 赵冬斌,邵坤,朱圆恒,等. [ 深度强化学习综述:兼
展[J]. 控制理论与应用,2016,论计算机围棋的发33(6):701-717. ZHAO D B,SHAO K, ZHU Y H ,et al. Review of deep reinforcement learning and discussions on the development of computer Go[J]. Control Theory & Applications,2016,33(6):701-717(in Chinese). [14] SZEPESVARI C. Algorithms for reinforcement learn⁃ ing[J]. Synthesis Lectures on Artificial Intelligence and Machine Learning,2009,4(1):632-636. [15] VAN HASSELT H,GUEZ A,SILVER D. Deep rein⁃ forcement learning with double q-learning[J]. Com⁃ puter Science,2015,3(3):6461-6474. [16] CHENG Y,ZHANG WD. Concise deep reinforcement learning obstacle avoidance for under actuated un⁃ manned marine vessels[J]. Neurocomputing,2017, 272:63-73. 17] 郑睿. [ 基于增强学习的无人车辆智能决策方法研究[D].长沙:国防科学技术大学,2013. 18]明. 离[J]. [ 刘虎,张仲 航行船舶安全会遇距 水运管理,2015,37(10):12-13.