Chinese Journal of Ship Research
未知环境中无人驾驶船舶智能避碰决策方法
王程博1,张新宇1,张加伟1,刘硕2 1 116026大连海事大学 航海动态仿真与控制交通行业重点实验室,辽宁 大连2 116026大连海事大学 航海学院,辽宁 大连
摘 要:[目的]为了实现无人驾驶船舶在未知环境下的智能避障功能,[方法]首先,建立一种基于深度强化学习(DRL)技术的无人驾驶船舶智能避碰决策模型,分析无人驾驶船舶智能避碰决策面临的问题,提出智能避碰Markov决策方法(MDP)的智能避碰决策模型,通过值函数求解决策的设计准则。然后,在此基础上,建立基于决策模型中的最优策略,使无人驾驶船舶状态对行为映射中的回报最大,并专门设计由接近目标、偏离航线和安全性组成的激励函数。最后,分别在静态、动态障碍环境下进行仿真实验。[结果]结果表明,该智能决策方法可以有效避让障碍物,保障无人驾驶船舶在未知水域中的航行安全,[结论]所提方法可为无人驾驶船舶的自主航行提供理论参考。关键词:无人驾驶船舶;智能决策;深度强化学习;避障中图分类号:U664.82;TP273.5 文献标志码:A DOI:10.19693/j.issn.1673-3185. 01144
0引言
随着人工智能和无人驾驶技术的快速发展,无人驾驶船舶成为海上智能交通的重要研究领域。当前,航运业正处于从自动化、信息化时代向智能化时代过渡的阶段。随着船联网建设的不断完善,以及云计算、大数据在航运领域的逐步应用,构建智能化的航运系统已成为未来几年甚至十几年内可能实现的目标。无人驾驶船舶集成了众多先进技术,包括智能航行(智能识别和智能决策)、岸基支持、船舶运维、船岸通信、船舶设计与制造、能效、集成测试等。智能决策层在整个无人驾驶船舶系统中扮演着“副驾驶”的角色,需要解决的问题是在已知无人驾驶船舶系统所处环境的信息基础上,决定船舶的航行策略。目前,国内外关于无人驾驶船舶行为决策的研究较少,但在无人驾驶汽车和移动机器人等其他领域内行为决策方法的研究已取得较好成果。70自上世纪 年代以来,在各种智能技术的推动下,移动机器人相关技术的研究获得了飞跃式发展,涌现出了许多移动机器人行为决策的方法,包括速度矢量可行度方法、多目标决策方法(Multi-Criteria Decision-making Method,MCDM)、Markov Decision-making Pro⁃马尔科夫决策方法( cess,MDP)、贝叶斯网络决策方法、模糊决策方法和产生式规则决策方法等。其中,赵忆文和谈大龙[1]提出了基于速度矢量可行度的自主移动机器人多行为综合决策方法,并取得了更合理的行为等[2]通综合结果。张晓东 过解决物资转运线路规4划、时间计算、作业排序和资源配班 个主要问题,设计了用于舰船物资转运方案的计算机辅助明[3]提决策方法。王斌 出了一种结合神经网络和模糊神经网络的机器人智能决策方法,在提高多级信息识别准确率的基础上,完成了机器人智能避障操作。Tanaka等[4]描述了一种用于移动机器人导航的新型粗糙地形可穿越性分析和行为生成方法,利用参考姿态跟踪的控制方法实现移动机器人的智能导航。陈雪梅等[5]采用粗糙集提取驾驶员换道行为的决策规则,以达到有效进行无人驾驶避碰的决策。杜明博[6]通过研究人类在各种交通场景下的驾驶行为决策过程,构建了一种基于决策树的驾驶行为决策模型,并在“智能先锋Ⅱ”无人驾驶车辆平台上验证了智能决策模型的有效赓[7]在性。田 获取有经验的驾驶员决策信息的基础上,深入研究了人为换道的决策机理,并建立了有效决策模型,实现了车辆准确换道决策。 Temizer MDP等[8]将无人机避碰问题视为 过程,实现了无人机避碰的智能决策。Furda Vlacic[9]针和对自主式城市车辆的实时决策问题,建立了MCDM模型,验证了该模型在新领域的适用性。Li Q等[10]使用 学习算法,通过一系列模拟驾驶场景,学习优化策略,建立了基于强化学习的智能超车决策模型。Zheng MDP等[11]建立了基于 方法的车辆决策模型,使用近似强化学习方法来改善MDP决策模型的性能。国内外学者对智能决策的理论、模型和实现方法等进行了许多探索和研究,但在无人驾驶船舶智能避碰决策领域的研究和应用尚处于起步阶段。鉴于此,本文将首先对无人驾驶船舶智能行为决策算法的设计进行分析,探讨无人驾驶船舶智能决策所面临的问题。然后,通过构建适用于Deep Reinforce⁃无人驾驶船舶的深度强化学习( ment Learning,DRL)和设定惩罚函数,建立无人驾驶船舶避障的智能决策模型。最后,分别在不同DRL障碍环境下对基于 的无人驾驶船舶智能避碰决策模型进行仿真,以验证模型的有效性和算法的适用性。
1 无人驾驶船舶智能避碰决策面临的问题
相比于车辆在陆地道路上的行驶,无人驾驶船舶航行的海洋环境更复杂、多变,在避碰智能决2策方面面临如下 个难点。1)海洋环境复杂、多变。首先,在海洋环境下,风、流、涌、浪等的时变性较强,极大地影响了船舶航行安全。其次,近海水域有较强的结构化通航特征,分道通航种类较多且助航信息量大,例如,灯浮、灯标、航道建筑物、航行信号灯和不守规则的小型渔船等外部环境因素。因此,无人驾驶船舶避碰智能决策的设计需要考虑多源信息的约束,并能从中提取有效信息。2 )无人驾驶船舶的终极目标是最大限度地实现“拟人化”。在有人驾驶船舶的操纵过程中,驾驶员会将人、船、航线视为一个整体,在海上交通规则、驾驶经验及意图的指导下进行反应式驾驶,通过值函数求解决策模型中的最优策略,使无人驾驶船舶状态对行为映射中的回报最大;在避碰智能决策设计上,无人驾驶船舶需要借鉴有人驾驶船舶的操作人员处理复杂交通场景的决策过程,合理学习其驾驶经验及规则中的模糊定义,在操作过程
中智能化地实现“拟人化”决策。
2 智能决策设计准则
针对无人驾驶船舶智能决策所面临的问题,结合海上交通规则,智能决策应满足以下准则: 1)自主规划能力。针对识别的目标和障碍物,在现有电子海图上应能合理规划最优避碰路线、避让时间和恢复原始航线的时间。2)实时性。因海洋环境的不可预测性,智能决策系统必须能实时针对环境变化调整航态。3)航向稳定性和航向保持。除执行转弯、追越、避障等动作外,应能保持航向,不能有较大的偏航。若受到扰动而偏航,应在扰动消失后自行恢复航线航行。4)航速控制。在正常航态下,一般应在最大和最小航速限制范围内航行。在智能决策过程中,通常应能纵向调整航速以避障;在特定海域内,可根据当地规则控制航速;在紧急情况或意外发生时,可实现紧急制动。5)避碰操作。在航行中,应具有避碰能力,所采取的行动包括横向转向和纵向加减速、停船等动作。
3 构建模型
无人驾驶船舶需实时获取航行状态信息,通过提取状态信息,学习有人驾驶的历史操作行为以进行智能决策。状态信息包括:当前自身状态、无人驾驶船舶历史决策行为、周边障碍物信息和当地交通规则等。在上述信息的基础上,则可做DRL出智能决策。经过深入研究,本文选择 作为智能决策模型。
3.1 深度强化学习
智能决策系统选取深度学习采样数据样本并提取共同特征值,选取强化学习训练数据,学习驾驶员历史操纵行为。强化学习的数学本质在离散MDP时间内可以视为 决策过程,并且由五元组( S ,A ,P ,R ,γ )定义。其中:S 为无人驾驶a a船舶所处的有限状态空间(状态集);A为无人驾驶船舶的行为决策空间,即在任意状态下的所有行为或动作a空间的集合,例如,左舵、右舵、加a(s速、减速、跟船和停船等;P s) = P(s′|s a) ,P 为条件概率,表示无人驾驶船舶在状态 s 和动作 a a(ss′)下到达下一个状态 s′ 的概率, R 为激励函数,表示无人驾驶船舶在动作 a 情况下,从状态 s到下一个状态 s′ 所得到的激励; γ Î(0 1) ,为激励衰减因子,在下一时刻 t 的激励便按此因子衰减[12-13]。MDP在上述的 定义下,无人驾驶船舶的智能决策需要解决的问题可以正式描述为寻找一个最1 DRL优“策略”,记为 π:S ® A。图 所示为 算法原理图。在任意给定的状态 s下,策略会决定产生一个对应的行为 a = π(s) 。当策略确定后,整个MDP Markov 2决策行为被视为一个 链,如图 所示。无人驾驶船舶智能决策的目标就是找到 At , At ,At ,At ,…,At ,以使回报 Gt 最大,如+ 1 + 2 + 3式(1)所示,即找到无人驾驶船舶从状态到行为动作的映射,以使回报Gt 最大。¥ å 1 Gt = γt R (s s ) ( ) a t t +1 t =0 t式中,动作 at 是由策略 π 产生的,a = π(s)。 *最优策略 π 通常由动态编程的方法求解。假设转移矩阵 P 和激励分布 R已知,最优策略 π*式(2)所的求解通常都是基于不断计算和存储如的数组[14]:示基于船舶状态 s maxE (2) * π = arg [G(t)] Pπ (t) π式中,Pπ (t) 为在t时刻选择最佳策略时的概率密度; E 表示期望。行为状态值函数 Qπ (s a)属于实数,将决定智能决策系统的控制策略,并可反映未来奖励的预测[15]。E (3) Qπ (s a) = (t)[G(t)s1 = s a1 = a] Pπ当无人驾驶船舶在状态 st 下采取具体的行动 at 时,将会获得即时奖励 r(st at )。E (4) r(st at ) = )[r(st at st 1)] P(s |s a + t +1 t t
3.2 激励函数
决策激励函数是无人驾驶船舶智能决策系统