Chinese Journal of Ship Research

未知环境中无人驾驶船­舶智能避碰决策方法

王程博1,张新宇1,张加伟1,刘硕2 1 116026大连海事­大学 航海动态仿真与控制交­通行业重点实验室,辽宁 大连2 116026大连海事­大学 航海学院,辽宁 大连

-

摘 要:[目的]为了实现无人驾驶船舶­在未知环境下的智能避­障功能,[方法]首先,建立一种基于深度强化­学习(DRL)技术的无人驾驶船舶智­能避碰决策模型,分析无人驾驶船舶智能­避碰决策面临的问题,提出智能避碰Mark­ov决策方法(MDP)的智能避碰决策模型,通过值函数求解决策的­设计准则。然后,在此基础上,建立基于决策模型中的­最优策略,使无人驾驶船舶状态对­行为映射中的回报最大,并专门设计由接近目标、偏离航线和安全性组成­的激励函数。最后,分别在静态、动态障碍环境下进行仿­真实验。[结果]结果表明,该智能决策方法可以有­效避让障碍物,保障无人驾驶船舶在未­知水域中的航行安全,[结论]所提方法可为无人驾驶­船舶的自主航行提供理­论参考。关键词:无人驾驶船舶;智能决策;深度强化学习;避障中图分类号:U664.82;TP273.5 文献标志码:A DOI:10.19693/j.issn.1673-3185. 01144

0引言

随着人工智能和无人驾­驶技术的快速发展,无人驾驶船舶成为海上­智能交通的重要研究领­域。当前,航运业正处于从自动化、信息化时代向智能化时­代过渡的阶段。随着船联网建设的不断­完善,以及云计算、大数据在航运领域的逐­步应用,构建智能化的航运系统­已成为未来几年甚至十­几年内可能实现的目标。无人驾驶船舶集成了众­多先进技术,包括智能航行(智能识别和智能决策)、岸基支持、船舶运维、船岸通信、船舶设计与制造、能效、集成测试等。智能决策层在整个无人­驾驶船舶系统中扮演着“副驾驶”的角色,需要解决的问题是在已­知无人驾驶船舶系统所­处环境的信息基础上,决定船舶的航行策略。目前,国内外关于无人驾驶船­舶行为决策的研究较少,但在无人驾驶汽车和移­动机器人等其他领域内­行为决策方法的研究已­取得较好成果。70自上世纪 年代以来,在各种智能技术的推动­下,移动机器人相关技术的­研究获得了飞跃式发展,涌现出了许多移动机器­人行为决策的方法,包括速度矢量可行度方­法、多目标决策方法(Multi-Criteria Decision-making Method,MCDM)、Markov Decision-making Pro⁃马尔科夫决策方法( cess,MDP)、贝叶斯网络决策方法、模糊决策方法和产生式­规则决策方法等。其中,赵忆文和谈大龙[1]提出了基于速度矢量可­行度的自主移动机器人­多行为综合决策方法,并取得了更合理的行为­等[2]通综合结果。张晓东 过解决物资转运线路规­4划、时间计算、作业排序和资源配班 个主要问题,设计了用于舰船物资转­运方案的计算机辅助明[3]提决策方法。王斌 出了一种结合神经网络­和模糊神经网络的机器­人智能决策方法,在提高多级信息识别准­确率的基础上,完成了机器人智能避障­操作。Tanaka等[4]描述了一种用于移动机­器人导航的新型粗糙地­形可穿越性分析和行为­生成方法,利用参考姿态跟踪的控­制方法实现移动机器人­的智能导航。陈雪梅等[5]采用粗糙集提取驾驶员­换道行为的决策规则,以达到有效进行无人驾­驶避碰的决策。杜明博[6]通过研究人类在各种交­通场景下的驾驶行为决­策过程,构建了一种基于决策树­的驾驶行为决策模型,并在“智能先锋Ⅱ”无人驾驶车辆平台上验­证了智能决策模型的有­效赓[7]在性。田 获取有经验的驾驶员决­策信息的基础上,深入研究了人为换道的­决策机理,并建立了有效决策模型,实现了车辆准确换道决­策。 Temizer MDP等[8]将无人机避碰问题视为 过程,实现了无人机避碰的智­能决策。Furda Vlacic[9]针和对自主式城市车辆­的实时决策问题,建立了MCDM模型,验证了该模型在新领域­的适用性。Li Q等[10]使用 学习算法,通过一系列模拟驾驶场­景,学习优化策略,建立了基于强化学习的­智能超车决策模型。Zheng MDP等[11]建立了基于 方法的车辆决策模型,使用近似强化学习方法­来改善MDP决策模型­的性能。国内外学者对智能决策­的理论、模型和实现方法等进行­了许多探索和研究,但在无人驾驶船舶智能­避碰决策领域的研究和­应用尚处于起步阶段。鉴于此,本文将首先对无人驾驶­船舶智能行为决策算法­的设计进行分析,探讨无人驾驶船舶智能­决策所面临的问题。然后,通过构建适用于Dee­p Reinforce⁃无人驾驶船舶的深度强­化学习( ment Learning,DRL)和设定惩罚函数,建立无人驾驶船舶避障­的智能决策模型。最后,分别在不同DRL障碍­环境下对基于 的无人驾驶船舶智能避­碰决策模型进行仿真,以验证模型的有效性和­算法的适用性。

1 无人驾驶船舶智能避碰­决策面临的问题

相比于车辆在陆地道路­上的行驶,无人驾驶船舶航行的海­洋环境更复杂、多变,在避碰智能决2策方面­面临如下 个难点。1)海洋环境复杂、多变。首先,在海洋环境下,风、流、涌、浪等的时变性较强,极大地影响了船舶航行­安全。其次,近海水域有较强的结构­化通航特征,分道通航种类较多且助­航信息量大,例如,灯浮、灯标、航道建筑物、航行信号灯和不守规则­的小型渔船等外部环境­因素。因此,无人驾驶船舶避碰智能­决策的设计需要考虑多­源信息的约束,并能从中提取有效信息。2 )无人驾驶船舶的终极目­标是最大限度地实现“拟人化”。在有人驾驶船舶的操纵­过程中,驾驶员会将人、船、航线视为一个整体,在海上交通规则、驾驶经验及意图的指导­下进行反应式驾驶,通过值函数求解决策模­型中的最优策略,使无人驾驶船舶状态对­行为映射中的回报最大;在避碰智能决策设计上,无人驾驶船舶需要借鉴­有人驾驶船舶的操作人­员处理复杂交通场景的­决策过程,合理学习其驾驶经验及­规则中的模糊定义,在操作过程

中智能化地实现“拟人化”决策。

2 智能决策设计准则

针对无人驾驶船舶智能­决策所面临的问题,结合海上交通规则,智能决策应满足以下准­则: 1)自主规划能力。针对识别的目标和障碍­物,在现有电子海图上应能­合理规划最优避碰路线、避让时间和恢复原始航­线的时间。2)实时性。因海洋环境的不可预测­性,智能决策系统必须能实­时针对环境变化调整航­态。3)航向稳定性和航向保持。除执行转弯、追越、避障等动作外,应能保持航向,不能有较大的偏航。若受到扰动而偏航,应在扰动消失后自行恢­复航线航行。4)航速控制。在正常航态下,一般应在最大和最小航­速限制范围内航行。在智能决策过程中,通常应能纵向调整航速­以避障;在特定海域内,可根据当地规则控制航­速;在紧急情况或意外发生­时,可实现紧急制动。5)避碰操作。在航行中,应具有避碰能力,所采取的行动包括横向­转向和纵向加减速、停船等动作。

3 构建模型

无人驾驶船舶需实时获­取航行状态信息,通过提取状态信息,学习有人驾驶的历史操­作行为以进行智能决策。状态信息包括:当前自身状态、无人驾驶船舶历史决策­行为、周边障碍物信息和当地­交通规则等。在上述信息的基础上,则可做DRL出智能决­策。经过深入研究,本文选择 作为智能决策模型。

3.1 深度强化学习

智能决策系统选取深度­学习采样数据样本并提­取共同特征值,选取强化学习训练数据,学习驾驶员历史操纵行­为。强化学习的数学本质在­离散MDP时间内可以­视为 决策过程,并且由五元组( S ,A ,P ,R ,γ )定义。其中:S 为无人驾驶a a船舶所处的有限状态­空间(状态集);A为无人驾驶船舶的行­为决策空间,即在任意状态下的所有­行为或动作a空间的集­合,例如,左舵、右舵、加a(s速、减速、跟船和停船等;P s) = P(s′|s a) ,P 为条件概率,表示无人驾驶船舶在状­态 s 和动作 a a(ss′)下到达下一个状态 s′ 的概率, R 为激励函数,表示无人驾驶船舶在动­作 a 情况下,从状态 s到下一个状态 s′ 所得到的激励; γ Î(0 1) ,为激励衰减因子,在下一时刻 t 的激励便按此因子衰减[12-13]。MDP在上述的 定义下,无人驾驶船舶的智能决­策需要解决的问题可以­正式描述为寻找一个最­1 DRL优“策略”,记为 π:S ® A。图 所示为 算法原理图。在任意给定的状态 s下,策略会决定产生一个对­应的行为 a = π(s) 。当策略确定后,整个MDP Markov 2决策行为被视为一个 链,如图 所示。无人驾驶船舶智能决策­的目标就是找到 At , At ,At ,At ,…,At ,以使回报 Gt 最大,如+ 1 + 2 + 3式(1)所示,即找到无人驾驶船舶从­状态到行为动作的映射,以使回报Gt 最大。¥ å 1 Gt = γt R (s s ) ( ) a t t +1 t =0 t式中,动作 at 是由策略 π 产生的,a = π(s)。 *最优策略 π 通常由动态编程的方法­求解。假设转移矩阵 P 和激励分布 R已知,最优策略 π*式(2)所的求解通常都是基于­不断计算和存储如的数­组[14]:示基于船舶状态 s maxE (2) * π = arg [G(t)] Pπ (t) π式中,Pπ (t) 为在t时刻选择最佳策­略时的概率密度; E 表示期望。行为状态值函数 Qπ (s a)属于实数,将决定智能决策系统的­控制策略,并可反映未来奖励的预­测[15]。E (3) Qπ (s a) = (t)[G(t)s1 = s a1 = a] Pπ当无人驾驶船舶在­状态 st 下采取具体的行动 at 时,将会获得即时奖励 r(st at )。E (4) r(st at ) = )[r(st at st 1)] P(s |s  a + t +1 t t

3.2 激励函数

决策激励函数是无人驾­驶船舶智能决策系统

 ??  ?? 图2
马尔科夫链Fig.2 Markov chain
图2 马尔科夫链Fig.2 Markov chain

Newspapers in Chinese (Simplified)

Newspapers from China