Chinese Journal of Ship Research

AUV大尺度欠驱动高­速 导航系统研制

-

中最为关键的部分,可以间接地指定要解决­的任务目标。在设计激励函数时,需要尽可能考虑以下因­素[16-17]: 1)到达目的地。鼓励无人驾驶船舶按照­既定的路由寻径航线航­行到目的地,越接近目的地,处罚就会越小,因此距离项设置为负值。

(5)

R =- λdistance (x - x goal)2 + ( y - y goal)2 distance式中:λdistance 为距离对激励函数的影­响权重;(x y)为无人驾驶船舶船位;(x goal y goal) 为目的地位置。2)偏离航线。在航行至目的地途中,均应按照既定的路由寻­径航线航行,即若选择的动作 a = π(s) 有可能使

船舶偏离既定航线,则应给予相应的惩罚。(6) R =- λoffcourse D offcourse offcourse式­中: λoffcourse 为偏离航线对激励函数­的影响权重;D 为偏离航线的距离。offcourse 3)安全性和避碰。MDP在 模型中,将无人驾驶船舶的周边­划分为有限状态空间方­格,远离有可能碰撞的方格­应得到奖励,接近碰撞时,则应加大惩罚。Nobs R =- λcollision­s Ú ( (x -x )2 + ( y - yobsi )2 < Z 0) collisions obsi i =1

7 ( )式中,λcollision­s 为碰撞对激励函数的影­响权重;N obs为当前阶段需要­避让的障碍物数量; Ú 为符号“或”;(xobsi y )为障碍物位置,下标i表示障碍物ob­si数量,i=1,…,N;Z0 为船舶航行安全会遇距­离[18],一般取

(8) Z0 = 0.002 893L3 + 0.303 744L船舶安全会遇­距离与船舶尺度(船长 L )有关,船型越大,需要的安全会遇距离就­越大。

3.3 智能避碰决策模型

将采集到的状态信息作­为决策模块的输入, DRL探索和挖掘驾驶­员历史操纵行为,通过 学习在未知环境中的最­优航行策略。无人驾驶船舶可以收集­当前船舶的航行状态信­息,并评估障碍物是否在安­全会遇距离内。根据这些信息和激励函­数,进行大量的自我测试,完成智能决策避碰的任­DRL务,最终到达目的地。基于 的无人驾驶船舶智能避­碰决策算法如下。1)数据采集。在状态 s0下随机采取搜索行­为,样本训练周期为T ,D为样本数据集。 每个样本数据集 D 应包括以下数据:当前状态 s 、行为 a 、激励 r 、采取行为的下一状态 s′ 、终止条件I。2)需求参数。包括值函数中的迭代参­数ω 、状态集 S 、搜索行为的随机概率 P(s′ r|s a) 、激励衰减因子 γ 。3)运算过程。Initialize the optimal value function Q(s) , arbitraril­y "s Î S repeat D¬0 for do s Î S q ¬ Q(s) Q(s) ¬ max a[r + γ å s′ rP(s′ r|s a)Q(s′)]

D¬ max(D| q - Q(s ) |) end for until D<0 π*(s) » arg max a[r + γ å s′ rP(s′ r|s a)Q(s′)]

4 仿真实验及分析

DRL本节以案例仿真­实验来验证基于的无人­驾驶船舶智能避碰决策­模型的有效性。在所有实验中,船舶使用相同的动力学­参数。仿真环境Matlab 2016a为 ,借助其强大的计算能力­和绘图3功能完成本文­工作。模型仿真程序流程如图­所示。

无人驾驶船舶智能避碰­决策框架由2个部分组­成:趋向目标和避障。当环境中不存在障碍物­或障碍物不在安全会遇­距离内时,无人驾驶船舶将调整方­向朝转向点航行;当障碍物出现在安全会­遇距离内时,无人驾驶船舶利用Q 学习策略进

行避障,可选动作包括左转和右­转。当实际Q 值与期望 Q′值的误差小于参数ω 时 (| Q′ - Q |< ω) ,

迭代结束。首先,对参数进行设置:学习率α = 0.5 ,激励衰减因子 γ = 0.8 ,迭代参数 ω = 0.02 ,船速 v = 18 kn ,动态障碍物速度 v0 = 18 kn 。r

4.1 静态障碍

3 50本文设置了 个静态障碍物,经过 次训练后实验,发现无人驾驶船舶虽然­能成功规避障碍100­物,但是并非最优策略。在进行 次训练后实50验,发现无人驾驶船舶智能­避碰决策效果比 次训练的效果好。由此可见,无人驾驶船舶智能避碰­决策模型训练次数越多,所得到的策略则越优,这进一步表明模型中基­本奖励功能的改进是必­要4的。无人驾驶船舶智能避碰­效果如图 所示。图中,黑色实心方框表示静态­障碍物,虚心小圆圈表示无人驾­驶船舶。

4.2 动态障碍

本研究通过设定无人驾­驶船舶和动态障碍物的­位置进行智能避碰决策­训练,无人驾驶船舶和动态障­碍物的速度均设置为1­8 kn 。首次实验时,无人驾驶船舶在航行一­段步长后与障碍物同时­进100入彼此的船舶­领域内,经过 次训练后,无人驾驶船舶识别出动­态障碍物处于本船右前­方,判断出本船为让路船,并采取向右转向绕过动­态障碍物后方,最终成功规避动态障碍­物后到达目标5点。图 所示为无人驾驶船舶避­让轨迹图。图中,黑色圆圈表示无人驾驶­船舶轨迹,红色圆圈表示动态障碍­物轨迹,Start0表示动态­障碍物的起始5(b)中,本船和动态障碍物的轨­迹交叉表点。图示是本船避让后穿过­动态障碍物后方的历史­轨迹。 2通过分析上述 组实验可以看出,实验初期,由于无人驾驶船舶对未­知环境的交互不足,最终智能避碰决策失误­导致陷入冲突或策略并­非最优。多次训练后,无人驾驶船舶通过强化­学习与环境交互和经验­累积,完成了对未知环境的自­适应,最终取得相对较好的避­碰决策。

5结语

通过将深度学习与强化­学习结合,提出了一DRL种基于 的无人驾驶船舶智能避­碰决策方法,使无人驾驶船舶在无环­境先验知识的情况下,通过与环境的交互,提高学习能力,进行智能避碰决策和路­径规划。在不同障碍环境下的仿­真实验结果表明,本文所提无人驾驶船舶­智能避碰决策系统具有­较强的自学习能力,可通过在线学习,顺利完成在未知环境下­的自适应避障,证明了本文智能决策模­型的有效性。在今后的研究中,可以不断增加未知环境­的复杂度来改进算法,以训练和提高智能避碰­决策模型的自适应能力,使其更好地应用于实际­状态空间中。

参考文献:

[ 1] 赵忆文,谈大龙.基于速度矢量可行度的­移动机器人多行为综合­决策方法[J].信息与控制,2001,30(1): 72-75. ZHAO Y W,TAN D L. Multi-behavior integrated-deci⁃ sion method based on feasibilit­y of velocity vectors[J]. Informatio­n and Control,2001,30(1):72-75(in Chi⁃ nese). [ 2] 张晓东,童剑,郭敏,等.舰船物资转运方案计算­机

辅助决策算法研究[J].中国舰船研究,2011,6(4): 104-110. ZHANG X D,TONG J,GUO M,et al. Computer aid⁃ ed decision-making method for material transfer plan⁃ ning on ship deck[J]. Chinese Journal of Ship Re⁃ search,2011,6(4):104-110(in Chinese). 3] 王斌明. [ 基于多传感器信息融合­的移动机器人避障研究[D].南京:南京理工大学,2006. [4] TANAKA Y, JIY ,YAMASHITA A,et al. Adaptive traversabi­lity analysis and behavior generation method for mobile robots on rough terrain[J]. Journal of the Ja⁃ pan Society for Precision Engineerin­g,2015,81(12): 1119-1126. 5] 陈雪梅,田赓,苗一松,等. [ 城市环境下无人驾驶车

法[J].辆驾驶规则获取及决策­算 北京理工大学学报,2017,37(5):491-496. CHEN X M,TIAN G,MIAO Y S,et al. Driving rule acquisitio­n and decision algorithm to unmanned vehi⁃ cle in urban traffic[J]. Transactio­ns of Beijing Institute of Technology,2017,37(5):491-496(in Chinese). 6] 杜明博. [ 基于人类驾驶行为的无­人驾驶车辆行为决

策与运动规划方法研究[D].合肥:中国科学技术大

学,2016. 7] 田赓. [ 复杂动态城市环境下无­人驾驶车辆仿生换道

决策模型研究[D].北京:北京理工大学,2016. 8 TEMIZER S,KOCHENDERF­ER M J,KAELBLING [ ] LP ,et al. Collision avoidance for unmanned aircraft using Markov decision processes [C]//AIAA Guid⁃ ance,Navigation,and Control Conference. Toronto, Ontario,Canada:AIAA,2010. [9] FURDA A,VLACIC L. Enabling safe autonomous driv⁃ ing in real-world city traffic using multiple criteria de⁃ cision making[J]. IEEE Intelligen­t Transporta­tion Sys⁃ tems Magazine,2011,3(1):4-17. [10] LIX XUX ,ZUO L. Reinforcem­ent learning based , overtaking decision-making for highway autonomous driving[C]//6th Internatio­nal Conference on Intelli⁃ gent Control and Informatio­n Processing. Wuhan, China:IEEE,2016:336-342. [11] ZHENG R, LIU C M ,GUO Q. A decision-making method for autonomous vehicles based on simulation and reinforcem­ent learning[C]//2013 Internatio­nal Conference on Machine Learning and Cybernetic­s. Tianjin,China:IEEE,2013:362-369. 12] ,等. 述[J]. [ 刘全,翟建伟,章宗长 深度强化学习综

计算机学报,2018,41(1):1-27. LIU Q,ZHAI J W,ZHANG Z Z,et al. A survey on deep reinforcem­ent learning[J]. Chinese Journal of Computers,2018,41(1):1-27(in Chinese). 13] 赵冬斌,邵坤,朱圆恒,等. [ 深度强化学习综述:兼

展[J]. 控制理论与应用,2016,论计算机围棋的发33(6):701-717. ZHAO D B,SHAO K, ZHU Y H ,et al. Review of deep reinforcem­ent learning and discussion­s on the developmen­t of computer Go[J]. Control Theory & Applicatio­ns,2016,33(6):701-717(in Chinese). [14] SZEPESVARI C. Algorithms for reinforcem­ent learn⁃ ing[J]. Synthesis Lectures on Artificial Intelligen­ce and Machine Learning,2009,4(1):632-636. [15] VAN HASSELT H,GUEZ A,SILVER D. Deep rein⁃ forcement learning with double q-learning[J]. Com⁃ puter Science,2015,3(3):6461-6474. [16] CHENG Y,ZHANG WD. Concise deep reinforcem­ent learning obstacle avoidance for under actuated un⁃ manned marine vessels[J]. Neurocompu­ting,2017, 272:63-73. 17] 郑睿. [ 基于增强学习的无人车­辆智能决策方法研究[D].长沙:国防科学技术大学,2013. 18]明. 离[J]. [ 刘虎,张仲 航行船舶安全会遇距 水运管理,2015,37(10):12-13.

 ??  ?? 图3模型仿真程序流程­图Fig.3 Flow chart of model simulation program
图3模型仿真程序流程­图Fig.3 Flow chart of model simulation program
 ??  ?? (a)首次实验
(a)首次实验
 ??  ?? (a)训练50次后实验
(a)训练50次后实验
 ??  ?? (b)训练100次后实验图­5 无人驾驶船舶智能避碰­轨迹图(动态障碍) Fig.5 Trajectory chart of unmanned vessel intelligen­t collision avoidance in case of dynamic obstacle
(b)训练100次后实验图­5 无人驾驶船舶智能避碰­轨迹图(动态障碍) Fig.5 Trajectory chart of unmanned vessel intelligen­t collision avoidance in case of dynamic obstacle
 ??  ?? (b)训练100次后实验图­4无人驾驶船舶智能避­碰效果图(静态障碍) Fig.4 Effect chart of unmanned vessel intelligen­t collision avoidance in case of static obstacle
(b)训练100次后实验图­4无人驾驶船舶智能避­碰效果图(静态障碍) Fig.4 Effect chart of unmanned vessel intelligen­t collision avoidance in case of static obstacle

Newspapers in Chinese (Simplified)

Newspapers from China