基于大数据的驾驶风格识别算法研究Research on Driving Style Recognition Algorithm Based on Dig Data
【摘要】开展了基于大数据识别驾驶员驾驶风格的方法,建立驾驶风格识别数据库,包含80名驾驶员并覆盖不同性别、年龄、驾龄、驾驶习惯等属性,从数据库中提取能够反映驾驶风格的工况,包括换道、转弯、跟车等7种工况总计万余条工况数据,最后利用K均值聚类方法和D- S证据理论决策融合方法进行聚类分析,训练并测试了驾驶风格识别模型。经过验证,所提出的驾驶风格识别方法查准率达到 。
吴振昕 何云廷 于立娇 付雷 陈盼(中国第一汽车集团有限公司智能网联开发院,长春 130011) 80%主题词:驾驶风格识别 工况辨识 机器学习 决策融合U461.91 A 10.19620/j.cnki.1000-3703.20181053中图分类号: 文献标识码: DOI: Wu Zhenxin, He Yunting, Yu Lijiao, Fu Lei, Chen Pan Intelligent Connected Vehicle Development Institute of China FAW Group Co., Ltd., Changchun 130011) ( Abstract In this paper, driving style recognition method based on big data was researched, and a driving style【 】recognition database was established, which included 80 drivers covering different attributes such as gender, age, driving age, driving habits, etc. Then, tens thousands of data in seven driving conditions, which could reflect driving style were extracted from the database, including lane change, turning, vehicle following and so on. Finally, the K- means clustering method and D- S evidence theory decision fusion method were used for cluster analysis. And the driving style recognition model was trained and tested. After verification, the precision rate of the recognition method proposed is up to 80%.
Key words: Driving style recognition, Vehicle operating modes identification, Machine learning, Decision fusion 1 前言
车载电控系统数量日益增多且高度智能集成化,产
T-Box
生了大量数据,如何基于 上传的数据开展挖掘分析,并通过挖掘数据价值创新业务引流衍生新的与车辆相关的业务,将是各大整车厂由生产车辆的传统业务向汽车生态圈拓展业务转型的重要途径。
驾驶风格识别是车联网领域的一项新兴技术,早期由于车辆数据量较小,其应用范围受限。随着车载
T- Box
的普及,车辆数据逐渐丰富化,驾驶风格识别应用广度和深度不断扩大。目前,驾驶风格识别研究方法
3 /
大体分为 种:驾驶风格问卷调查、基于底盘数据和或
Advanced Driver Assisted System,
先进驾驶辅助系统(
ADAS) / ADAS
数据的统计分析、基于底盘数据和或 数据的机器学习分析[1- 2]。由于驾驶员可能隐瞒自己某些偏向危险的驾驶行为及问卷题目设置困难等原因,驾驶风
/ ADAS
格调查问卷精度不高。基于底盘数据和或 数据的统计分析方法对与驾驶风格强相关的车辆状态参数进行统计分析得到驾驶风格识别结果,但面对海量数据时,统计分析方法的数据处理能力捉襟见肘。机器学习的优势是处理海量数据,随着车联网平台的广泛建立和
T-Box
数据上传频率的增大,车辆状态数据量呈指数级
/ ADAS
增长,基于底盘数据和或 数据的机器学习方法识别驾驶风格因精度高、机器学习技术成熟等原因具有广阔的研究与应用空间。
本文利用数据挖掘技术开展基于大数据的驾驶风格识别研究,建立了驾驶风格数据库,进行工况辨识,并提取工况特征建立驾驶风格识别模型,获得了驾驶员总
ADAS
体驾驶风格标签。驾驶风格识别结果可应用于开发及个性化定制、车辆能量控制、汽车电控系统控制参数调节、驾驶员能力提升及保险等后市场服务[3- 5],为未来整车企业向服务生态提供商转型提供有力支撑。
2 驾驶风格数据库构建
为了训练并测试机器学习模型,本文将驾驶风格数据库分为固定工况试验数据和自然驾驶试验数据,分别将两种数据用于训练和测试机器学习模型,为驾驶风格识别建立可靠的数据库基础。固定工况的选择依据前期大量的调研与对标结果确定,包括换道、转弯、跟车等
7
种工况。
1 1
本文实车试验采用 辆试验样车和 辆环境车,在城市道路开展实车驾驶试验,提取各工况数据,构建驾驶风格数据库。
2.1 试验前期准备
2.1.1
车辆改装
基于信号需求对试验样车进行改装,在车辆正前方、正后方分别安装毫米波雷达,在车辆正前方安装前视图像单元。
CANoe Dewe43试验设备采用多通道 和 数据采集
CANoe CAN
仪,其中 主要采集试验车辆动力 信号、正前方雷达传感器信号、正后方雷达传感器信号及前视图像
Dewe43 CAN单元信号, 用于采集环境车辆的动力 数据。
2.1.2
驾驶员筛选及试验路线规划
资料显示,我国在册机动车驾驶员男女比例约为
1.8∶1[ 2∶1
2],本文筛选驾驶员时男女比例定为 。为了避免参与试验的驾驶员驾驶风格偏向某一方面导致试验数据分布不均,在进行试验前通过《驾驶员驾驶风格调查问卷》进行初选,根据问卷得分在总体中的分布、性别、年龄和驾龄筛选参与试验的驾驶员。考虑样本分布的均衡合理,不仅要保证男女比例,而且须覆盖不同
25~55
年龄分段( 岁)、不同的实际驾驶风格,本文从
262 80
名参与问卷调查的驾驶员中筛选出 名驾驶员参与实车试验。
1
试验路线如图 示,分为规定工况路线和自由驾驶路线。试验时,每位驾驶员需要提前熟悉车辆和试验路
50 km/h 70 km/h线,试验开始后,每位驾驶员分别在 和
3
两种常用车速下进行 次重复试验。
2.2 试验数据预处理
常见的数据预处理方法包括滤波、缺失值处理、异常值处理、归一化、重采样、单位转换等。车辆底盘
CAN
信号含有噪声,导致信号毛刺比较多。为了提高分析精度,根据各原始信号及其噪声的特点对其进行滤波处理。以纵向加速度信号为例,其含高频噪声成分较多,可采用低通滤波器,根据纵向加速度信号的频
3 Hz,
率属性设置滤波器通带截止频率为 阻带截止频
6 Hz
率为 。滤波后信号高频部分的幅值明显减小,低频部分幅值不变,符合纵向加速度信号的频率属性。
3 工况辨识
根据车辆动力学原理进行工况辨识,从驾驶风格数
7
据库中提取出 种固定工况,即转弯工况、变道工况、超车工况、掉头工况、跟车工况、起动工况和停止工况,然后利用工况辨识结果识别驾驶员风格。
本文以转弯工况为例说明工况辨识逻辑,其他工况辨识原理与转弯工况相同,只是提取的特征不同。
3.1 转弯工况辨识逻辑
根据车辆动力学原理,与直线行驶相比,转弯时车辆航向角、横摆角速度和侧向加速度会发生明显变化[6],根据实车试验转弯工况的统计分析结果确定转弯工况辨识逻辑的各项判定阈值,转弯工况辨识逻辑
2
如图 示。
3.2 转弯工况辨识逻辑验证
为了验证转弯工况辨识逻辑的准确性,利用车辆
GPS
信号绘制车辆运动轨迹,标出已辨识出的转弯工
3
况,辨识效果如图 示。 3
由图 可知,该逻辑可以较准确地辨识出转弯工况。在较低车速下,不同驾驶员间的操纵差异较小,故本文研究中、高车速下的驾驶风格识别。结果显示,该辨识逻辑可以用于驾驶风格识别中的转弯工况辨识。
4 建立驾驶风格识别模型
3
基于第 节工况辨识结果,利用无监督机器学习方K法—— 均值法对每种工况下的数据进行聚类分析,得到每种工况下驾驶风格识别结果;然后利用决策融合方法将每种工况下的风格识别结果进行决策融合,得到驾驶员的总体驾驶风格标签。
4.1 机器学习
机器学习是一门研究如何通过计算的手段、利用经验改善系统自身性能的学科[7],其研究的主要内容是在计算机上利用数据产生“模型”的方法,即“学习算法”。随着数据量不断积累,传统的数据分析方法不能有效处理大量数据,机器学习算法很好地解决了这一问题,广泛应用于计算机科学的众多分支领域以及交叉学科。
大数据的其特点是容量大、速度快、模态多、难辨识、价值大、密度低[8- 9]。机器学习能够很好地应对大数据分析的困难和挑战,成为分析大数据的主流技术。按照机器学习过程中使用的样本是否存在标签,可将其分为监督学习和非监督学习[10]。监督学习是指训练的数据样本带有标签,在训练过程中利用标签评价模型的训练结果、调试模型参数、改进模型精度,根据标签从训练样本中学习对象的划分规则[11]。非监督学习适用于样本标签难以获得的情况,通过学习数据间内在模式和规律获得样本的特征[12]。非监督学习的典型算法有自动编码器、受限玻尔兹曼机、深度置信网络等,主要应用于聚类、异常检测等。 本文的研究目的是驾驶员驾驶风格识别,在实际应用场景中驾驶员风格标签未知,所以本文选择无监督机器学习方法对驾驶风格进行聚类。常用的聚类方法有划分聚类、层次聚类、密度聚类,其中划分聚类常见的方
CLARANS
法有 均值法、 算法等,层次聚类典型的算法
BIRICH CURE
包括 、 等,密度聚类典型算法有具有噪声
Density- Based Spatial Clustering of
的基于密度的聚类(
Applications with Noise,DBSCAN)
方法、通过点排序识
Ordering Points To Identify the Clustering
别聚类结构(
Structure,OPTICS)
算法等[13]。
以上各种聚类方法中, K均值法是最经典、应用最广泛的算法之一,该方法用质心定义原型,其质心是一组点的均值,常用于n维连续空间中的对象[14]。综合考虑各种聚类方法的优缺点及使用场合,选择K均值法对驾驶风格进行聚类。
K均值法采用贪心策略,通过迭代优化来近似求
D={x1,x2,…,xm},
解最小化平方误差,对于给定的样本集
C={C1,C2,…,Ck}
均值针对聚类所得簇划分 最小化平方误差:
4.2 决策融合算法
在一段行程中,可能包含多个工况及某一工况多次出现,例如转弯、跟车、变道等工况,驾驶风格识别需要将某一工况出现一次的识别结果与到目前为止已经存在的该工况多次出现的识别结果融合,然后再把不同工况的识别结果融合,得到一段行程驾驶风格识别的最终结果。因此,本文决策融合算法分为两个层级:同一工况级决策融合,不同工况级决策融合。
决策融合方法的选择取决于分类器输出的类型:如果分类器输出概率值或范围值,那么融合这两种类型输
出的算法称为软决策融合算法;如果分类器输出的结果是类标签或类的集合,那么融合这两种类型输出的算法称为硬决策融合算法。常见的软决策融合算法包括乘
/
积法、求和法、最大最小值法、均值法等[15- 16],常见的硬
D-S
决策融合算法包括投票法、贝叶斯法、 证据理论、神经网络、粗糙集理论等[17-18]。
本文聚类输出的结果属于标签类,所以需要选择一种硬决策融合算法。同一工况下融合识别结果的特点是多条识别结果融合、新产生工况的识别结果与历史识别结果融合,由于驾驶风格受交通环境影响可能会发生
D-S
变化,为了体现工况识别结果的变化,选择 证据理论作为融合方法,避免投票法和贝叶斯计算先验概率时
D- S 1967
湮没新进识别结果。 证据理论于 年提出,它比传统的概率论能更好地的把握问题的未知性和不确定,从而在多传感器信息融合中得到了广泛的应用。设m1和m2是两个相互独立的基本概率赋值,那么
= m1⊕m2组合后的基本概率赋值为m ,即对两个证据进
D-S
行融合, 证据理论提供了一种计算两个证据融合后的基本概率的方法。
4.3 驾驶风格识别模型
4.3.1
特征提取与特征选择提取表征驾驶风格的特征是建立机器学习模型的基础,并且选择特征的优劣很大程度决定了模型的准确度。
试验采集的车辆状态信号中,能反映驾驶员驾驶风格的信号主要包括车速、纵向加速度、油门踏板开度、侧向加速度、横摆角速度、航向角、转向盘转角及其角速度
8
共 个通道信号,根据本文提出的工况辨识逻辑获得驾驶员驾驶工况数据后,需要提取可以表征驾驶风格的特征,用于建立和训练机器学习模型。对于每个通道信号利用统计学方法提取统计特征,例如转弯工况下,提取车速的均值、最大值、最小值、方差、标准差、协方差、均
8
方根、四分位值等统计量。利用此法处理 个通道信
105
号,共得到 个特征。
从原始数据提取的特征会包含离群样本点,这样的数据点会对特征处理过程中的归一化产生影响,所以需
5 6
要剔除离群点,以还原特征数据正常分布,如图 、图所示。
90
在不同工况下需对 个特征进行筛选以降低聚类模型的复杂度,提高其精度。首先根据特征方差大小进
35
行特征筛选,得到 个方差较大的特征,然后利用车辆
Factor analysis)
动力学先验知识和因子分析( 方法进一
3
步筛选特征,最终得到 个关键特征,即转向盘角速度 最大值、横摆角速度最大值、侧向加速度最大值,用于建立和训练聚类模型。 4.3.2
驾驶风格聚类模型根据先验知识,一般将驾驶风格分为谨慎型、一般
K= 3
型、激进型,因此K均值方法中 。聚类完成后,根据特征的数值大小分布情况并结合车辆动力学原理,为聚
3 80 6 700
类得到的 个簇分别打上标签。以 名驾驶员的多个换道工况为例,利用K均值方法对换道数据进行聚
7
类,结果如图 所示。
评价聚类模型优劣通常有两种方法,一种是基于对象间距,另一种是基于人工主观标签结果。由于本文的目的是识别驾驶风格,除考虑聚类模型本身性能的优劣外,还要结合业务背景考虑风格聚类结果与实际情况是否相符,因此采用与人工主观标签结果对比来评价聚类模型的优劣。人工主观标签由具有丰富经验的、了解驾驶风格评价方法并全程参与试验的专家提供。
4.3.3
驾驶风格决策融合模型
D-S
以换道工况为例,利用 证据理论进行决策融合
的过程为[19]:
a. D-S
设n为 证据理论进行决策融合的最小工况
3
数,前n个换道工况识别出的 类风格频数分别为m0、m1、m2,当第( n+ 1) ( n- 1) ( n+ 1)个换道工况出现时,第 、、n 个
3
换道工况识别出的 类风格频数分别为p0、p1、p2;
b. 3
计算前n个换道工况下 类风格出现的概率分
r0=m0/(m0+ m1+ m2) r1=m1/(m0+ m1+ m2) r2=m2/(m0+ m1+
别为 、 、
m2), R=( r0,r1,r2);
得到概率矩阵c. ( n- 1) ( n+ 1) 3
计算第 、、n 个换道工况下 类风格出
s0=p0/(p0+p1+p2) s1=p1/(p0+p1+p2) s2=p2/( p 0+
现的概率分别为 、 、
p1+p2), S=( s0,s1,s2);
得到概率矩阵
d. N=R⊗ST=
计算矩阵R与ST之积,得到混合矩阵
é s0r0 s0r1 s0r2 ù s1r0 s1r1 s1r2 ;
ë s2r0 s2r1 s2r2 û
e. K1=s0r1+s0r2+s1r0+s1r2+s2r0+s2r1;
计算不确定系数
f. D- S M=(M1,M2,
计算 证据理论概率融合矩阵
M3), M1=s0r0/( 1- K1),M2=s1r1/( 1- K1),M3=s2r2/( 1- K1),
其中 当
K1= 1
时表示相互融合的事件相互独立,无法进行融合;
g. D-S
应用 证据理论融合判据确定融合后的类,预先设定门限值e1,令L1= maxMi, L2= maxMi,( Mi≠L1),
如果
L1-L2>e1, L1
则 对应的类为融合后的类。
D-S
驾驶风格决策融合模型首先采用 证据理论对同一工况的多个识别结果进行融合,然后进行不同工
80
况识别结果融合。以换道工况为例, 名驾驶员换道
D-S
工况的 证据理论融合结果与人工标签对比结果如
1
表 示。
1
由表 可知,一般型与谨慎型和激进型均有交叉,谨慎型与激进型基本无交叉,主要原因有:驾驶员的驾驶风格受交通环境、道路条件等环境因素影响会发生迁移;有些驾驶员在不同工况下体现出的风格不同,导致某一工况的风格识别结果与总体风格标签即专家主观K标签不一致。总体看, 均值法用于换道工况驾驶风格识别的精度在可接受范围内。完成同一工况不同识别结果的融合后,得到该工况
D-S
下驾驶员驾驶风格识别结果。同理,利用 证据理论 对其他新进工况的识别结果与历史识别结果融合,更新每个工况的风格识别结果。
由于工况数量有限且每个工况由一条识别结果代表,鉴于工况数据有限以及驾驶员风格在不同工况下具有一定倾向性的特点,选择投票法融合不同工况下的驾驶风格识别结果。投票法是最常见、最简单的决策融合算法,统计各个工况识别结果出现的频数,出现频数最多的识别结果即是此驾驶员对应的总体驾驶风格。采用投票法将多种工况的风格识别结果进行融合,
2融合结果与人工标签对比结果如表 所示。 2
由表 可知,不同工况的融合结果与专家主观标签
1
的对比结果较表 好,印证了前文驾驶员在不同工况下体现的风格存在差异,激进型驾驶员不是在所有工况下都激进驾驶的分析。驾驶风格识别关注识别结果的查准率,即正确地识别每一种类型,不关注误判率,谨慎型
16/(16+4+0)=80%, 38/(38+6+
查准率为 一般型查准率为
4)=79.2%, 10/(10+2)=83.3%
激进型查准率为 。由此可见,本文建立的由聚类模型和决策融合模型组成的风格识别模型查准率较高,能够满足驾驶风格识别研究的需求。
5 结束语
基于驾驶风格数据库,首先利用工况辨识逻辑提取特征数据段,然后利用统计学方法、特征选择和提取方K法提取特征,最后用 均值方法聚类,并对聚类结果进
D-S
行 证据理论融合,得到单一工况的风格识别结果。按照此思路,得到其他工况的风格识别结果,最终利用投票法得到最终的风格识别结果,经过验证,本文开发
80%
的驾驶风格识别模型查准率达到 。后续研究将利用本文建立的驾驶风格识别模型分
160
析 位用户体验数据的驾驶风格,进一步改进识别模
T-Box
型,并利用该模型处理用户通过 上传至云平台的数据,分析其驾驶风格,为驾驶员驾驶行为、驾驶行为保
Usage Based Insurance,UBI)
险( 等研究提供依据。
参考文献
[1] , , .孙龙 杨程程 常若松 多维度驾驶风格量表的修订及初
步应用[J]. 人类工效学, 2014, 20(2): 6-9. [2] 李国法.基于模式转移和操控特性的驾驶风格评测研究[D]. 北京:清华大学, 2016. [3] 秦大同, 詹森, 曾育平, 等.基于驾驶风格识别的混合动力汽车能量管理策略[J]. 机械工程学报, 2016, 52(8): 162169. [4] , , .刘玺 何仁 程秀生 基于驾驶员类型识别的双离合自动[J]. , 2015, 31(20): 68变速器换挡规律研究 农业工程学报73. [5] , , , .王畅 付锐 彭金栓 等 应用于换道预警的驾驶风格分类[J]. , 2014, 14(3): 187-193.方法 交通运输系统工程与信息[6] J, Y K, W C.黄秦 林 具有驾驶风格识别的自适应车辆控: CN 101633359 B[P]. 2013.制系统[7] , . [M]. :周志华 杨强 机器学习及其应用 北京 清华大学出, 2011.版社[8] , , . [J].冯登国 张敏 李昊 大数据安全与隐私保护 计算机学, 2014, 37(1): 246-258.报[9] , , , .程学旗 靳小龙 王元卓 等 大数据系统和分析技术综述[J]. , 2014(9): 1889-1908.软件学报[10] , , , .何清 李宁 罗文娟 等 大数据下的机器学习算法综述[J]. , 2014, 27(4): 327-336.模式识别与人工智能[11] , . [J].张润 王永滨 机器学习及其算法和发展研究 中国传 媒大学学报:自然科学版, 2016, 23(2): 10-18. [12] , , , .殷瑞刚 魏帅 李晗 等 深度学习中的无监督学习方法[J]. , 2016, 25(8): 1-7.综述 计算机系统应用[13] . K [J].胡伟 改进的层次 均值聚类算法 计算机工程与应, 2013, 49(2): 157-159.用[14] Tan P N, Steinbach M, Kumar V. [M]. :数据挖掘导论 北京, 2011.人民邮电出版社[15] . [D]. :燕颢 信息融合几种算法的研究 南京 南京理工大, 2003.学[16] Kittler J, Hatef M, Duin R P W, et al. On Combining Classifiers[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1998, 20(3): 226-239. [17] Ruta D, Gabrys B. Classifier Selection for Majority Voting [J]. Information Fusion, 2005, 6(1): 63-81. [18] Roli F, Giacinto G. Design of Multiple Classifier Systems [J]. University of Surrey, 2001, 22(1): 25-33. [19] Ruta D, Gabrys B. An Overview of Classifier Fusion Methods[J]. Computing & Information Systems, 2000, 7: 110. (责任编辑 斛畔) 2018 9 28修改稿收到日期为 年 月 日。