无人驾驶车辆行为决策系统研究

熊璐康宇宸张培志朱辰宇余卓平（

2018-08-24 -

1 无人车系统架构

熊璐康宇宸张培志朱辰宇余卓平

（同济大学，上海 201804）

主题词：无人驾驶车辆行为决策算法有限状态机学习算法U461 A 10.19620/j.cnki.1000-3703. 20180752中图分类号：文献标识码： DOI:

Research on Behavior Decision-Making System for Unmanned Vehicle Xiong Lu, Kang Yuchen, Zhang Peizhi, Zhu Chenyu, Yu Zhuoping Tongji University, Shanghai 201804）（ Abstract The research status of behavior decision- making system of unmanned vehicle in China and other countries【】was investigated, and the behavior decision- making system was classified. Based on the research samples of behavior decision- making systems in China and other countries, the implementation and application conditions of different behavior decision- making systems based on rules and learning algorithms were discussed, and the advantages and disadvantages were compared. The research level, technical difficulties and development trends of the current unmanned vehicle behavior decision- making system were analyzed, which provided a reference for the design of the unmanned vehicle behavior decision-making system.

Key words: Unmanned vehicle, Behavior decision- making system, Finite state machine, Learning algorithm

无人驾驶车辆是可以自主行驶的车辆，其系统结构核心在于“智能”，不仅具备加减速、转向等常规的汽车功能，还集成了环境感知、行为决策、路径规划、车辆控制等系统功能，能够综合环境及自车信息，实现类似人类驾驶的行为。

1典型的无人驾驶车辆系统架构如图所示，总体分为环境感知、决策规划和运动控制三大部分。

环境感知系统的主要目的是获取并处理环境信息，利用多传感器目标检测与融合等技术，获取周围环境态势，为系统其他部分提供周围环境的关键信息。感知层将处理后的信息发送给决策层。

决策规划系统综合环境及自车信息，使无人车产生安全、合理的驾驶行为，指导运动控制系统对车辆进行控制[1]。行为决策系统是狭义的决策系统，其根据感知层输出的信息合理决策出当前车辆的行为，并根据不同的行为确定轨迹规划的约束条件，指导轨迹规划模块规划出合适的路径、车速等信息，发送给控制层。

运动控制系统接收决策规划层的指令并控制车辆

【摘要】调研了国内外无人驾驶车辆行为决策系统的研究现状，对行为决策系统进行分类，基于国内外行为决策系统研究实例，对基于规则和基于学习算法的不同行为决策系统的实现方式、适用条件及优缺点进行比较，分析了现阶段无人车行为决策系统的研究水平、技术难点和发展趋势，为无人驾驶车辆行为决策系统的设计提供参考。

响应，保证控制精度，对目标车速、路径等进行跟踪[2]。

2 无人车行为决策系统概述2.1 设计准则

无人车行为决策系统的目标是使无人车像熟练的驾驶员一样产生安全、合理的驾驶行为。其设计准则可总结为：良好的系统实时性；安全性最高优先级（车辆具备防碰撞、紧急避障、故障检测等功能）；合理的行车效率优先级；结合用户需求的决策能力（用户对全局路径变更、安全和效率优先级变更等）；乘员舒适性（车辆转向稳定性、平顺性等）。

对于适用于城市道路和高速公路工况的行为决策系统，设计准则还包括[2]：右侧车道通行优先；保持车道优先；速度限制；交通标志及交通信号灯限制等。

2.2 输入与输出

无人车行为决策系统的上层是感知层，其上层输入包括：

局部环境信息，其基于相机、雷达等车载传感器，通过多传感器目标检测[3- 4]与融合等技术[5]，融合处理各传感器数据，获取车辆周边环境态势，输出关键环境信息，交由决策系统处理。

b. GPS/自车定位信息，其基于惯性导航系统、高

Simultaneous精度地图定位[6]、即时定位与地图构建（

Localization And Mapping，SLAM）[

7-8]等方法，主要功能是对车辆进行高精度定位。

地理地图信息和任务信息，包括先验全局路径、道路高精地图、交通标志信息等。

广义的决策系统的输出是运动控制信息。本文讨论狭义的行为决策系统，其下层是运动规划模块，行为决策系统的输出包括当前车辆行为、车辆运动局部目标点与目标车速等。

2.3 系统分类

无人车行为决策系统主要有基于规则和基于学习算法两大类。

基于规则的行为决策，即将无人驾驶车辆的行为进行划分，根据行驶规则、知识、经验、交通法规等建立行为规则库，根据不同的环境信息划分车辆状态，按照规则逻辑确定车辆行为的方法。其代表方法为有限状态

II[ CA7460 Boss[机法[9-10]，代表应用有智能先锋 11]、红旗、 12]、Junior[ Odin[ Talos[ Bertha[

13]、 14]、 15]、 16]等。基于学习算法的行为决策，即通过对环境样本进行自主学习，由数据驱动建立行为规则库，利用不同的学习方法与网络结构，根据不同的环境信息直接进行行为匹配，输出决策行为的方法，以深度学习的相关方法及决策树等各类机器学习方法[17- 18]为代表。代表应用有

NVIDIA）[ Intel[ Comma.ai[ Mobileye[

英伟达（ 19]、 20]、 21]、 22]、百

Waymo

度、、特斯拉等。

3 基于规则的无人车行为决策系统3.1 有限状态机法

基于规则的行为决策方法中最具代表性的是有限状态机法，其因逻辑清晰、实用性强等特点得到广泛应用。

有限状态机是一种离散输入、输出系统的数学模型。它由有限个状态组成，当前状态接收事件，并产生相应的动作，引起状态的转移。状态、事件、转移、动作是有限状态机的四大要素[23-24]。有限状态机的核心在于状态分解。根据状态分解

3的连接逻辑，将其分为串联式、并联式、混联式种体系架构。

串联式结构的有限状态机系统，其子状态按照串联结构连接，状态转移大多为单向，不构成环路。并联式结构中各子状态输入、输出呈现多节点连接结构，根据不同输入信息，可直接进入不同子状态进行处理并提供输出[25]。如果一个有限状态机系统下的子状态中既存在串联递阶，又存在并联连接，则称这个系统具有混联结构。

3.2 基于有限状态机的行为决策系统

有限状态机法是经典的决策方法，因其实用性与稳定性在无人车决策系统中广泛应用，目前已比较成熟，

Defense Advanced Research

美国国防高级研究计划局（

Projects Agency，DARPA）

城市挑战赛中各队使用的决策系统为其典型代表。

3.2.1

串联结构

Talos[ 2麻省理工大学的 15]无人车如图所示，其行为决策系统总体采用串联结构。该无人车以越野工况挑战赛为任务目标，根据逻辑层级构建决策系统。其系统分为定位与导航、障碍物检测、车道线检测、路标识别、可行驶区域地图构建、运动规划、运动控制等模块，其中导航模块负责制定决策任务。

无人驾驶车辆行为决策系统研究

熊璐康宇宸张培志朱辰宇余卓平（

Newspapers in Chinese (Simplified)

Newspapers from China

无人驾驶车辆行为决策­系统研究

熊璐 康宇宸 张培志 朱辰宇 余卓平 （

Newspapers in Chinese (Simplified)

Newspapers from China

无人驾驶车辆行为决策系统研究

熊璐康宇宸张培志朱辰宇余卓平（