K均值聚类改进与行驶工况构建研究
K均值聚类改进与行驶工况构建研究
刘子谭1 朱平1 刘旭鹏2 刘钊1 ( 1.上海交通大学,上海 200240;2.上汽大众汽车有限公司,上海 201805)
【摘要】采集了广州市2 800万个样本数据,采用相关指标比较分析K均值聚类、K中心点聚类、模糊聚类、高斯混合聚类4种方法,并以90%置信区间作为初始中心选取范围提高K均值聚类稳定性。运用改进后的K均值聚类构建广州市行驶工况,平均相对误差小于6%,并与美国、欧洲、日本、中国等地区的典型行驶工况进行比较。结果表明,广州市行驶工况具有车辆加减速频繁、怠速与低速段工况占比高的特点,与国内现行NEDC以及中国QC/T 759— 2006工况存在一定差异。主题词: K均值聚类 短行程 主成分分析 汽车行驶工况U491.1 A 10.19620/j.cnki.1000-3703.20181380中图分类号: 文献标识码: DOI: Research on Improved K-Means and Driving Cycle Construction Liu Zitan1, Zhu Ping1, Liu Xupeng2, Liu Zhao1 1. Shanghai Jiao Tong University, Shanghai 200240; 2. SAIC Volkswagen Automobile Co., Ltd., Shanghai 201805) ( Abstract With 28 million sample data of Guangzhou, K- means, K- medoids, FCM and GMM are compared and【 】analyzed by related index, 90% confidence interval is chosen as the initial centre selection range and to improve the stability of K- means. The improved K- means method is used to construct the Guangzhou driving cycle, average relative error is less than 6%, Guangzhou cycle is compared with the typical driving cycles in the U.S., EU, Japan and China, etc. The results show that Guangzhou driving cycle is characterized with frequent acceleration and deceleration, high proportion of idle speed and low speed section, which is different from the current domestic driving cycle NEDC and QC/T 759- 2006 cycle. Key words: K-means, Micro-trips, PCA, Vehicle driving cycle
1 前言
行驶工况是通过数据分析所构建的一个区域内一
-
系列代表性的速度 时间数据,可以模拟真实的交通状况,以测试车辆尾气排放和燃料消耗。此外,其在交通协同控制、新车评价、风险评估和车辆的设计、选型、匹配和控制策略等方面有着广泛的应用[1-3]。
常用的行驶工况构建方法是短行程法,将数据划分成短行程片段,通过分析片段特征参数组合生成对
Lin
应的行驶工况[4]。 等采用短片段划分以及随机过程
Fotouhi Montazaeri选择方法构建了行驶工况[5]。 和 描述
K
了基于短行程和 均值聚类方法的汽车行驶工况构建
FTP- 75
过程,将开发的行驶工况特征与 、联合国欧洲
Economic Commission for Europe,ECE)
经济委员会( 汽
Extra Urban Driving Cycle,
车法规和市郊循环工况(
EUDC)
进行了对比分析[6]。同济大学胡志远利用短行程、主成分分析、聚类分析等方法对上海市公交车进行研究,生成了最优短行程组合[7]。吉林大学秦大同等利
K
用 均值聚类算法与工况选择方法构建了较为精准的区域行驶工况[8]。李孟良等学者采集了北京、上海和广州
3
车辆行驶速度等运动学特征,生成 个城市的工况并与
ECE 15
工况相比较,说明中国城市行驶工况的特点[9]。
2
彭美春等学者沿广州市中心区条典型公交线路进行试验,得到广州市公交车行驶工况并与欧洲瞬态
European Transient Cycle,ETC)
循环( 城市工况进行了比较[10]。我国汽车行驶工况方面的标准、试验方法、测试手
New European Driving
段等全面沿用新欧洲行驶工况(
Cycle,NEDC),
但其与中国的相似程度较低。李孟良等学者根据采集的北京市、上海市、广州市实际道路工况
QC/T 759—2006
提出了 《汽车试验用城市运转循环》,但该工况提出较早,对当前广州市实际交通状况的适应性
有待验证。因此,构建较为精确的广州市交通特征行驶工况对于分析广州市交通状态,以及广州市机动车排放测试、新车仿真有着重要价值。本文利用短行程法、主成分分析及聚类方法,并针K
对 均值聚类稳定性较差的缺陷进行改进研究,将改进后的聚类方法应用于工况构建,生成了广州市行驶工况并与美国、欧洲等地区的典型行驶工况进行比较,给出广州市工况的特点。
2 行驶工况构建流程与理论方法2.1 短行程法构建工况流程
先将数据划分成短行程片段,再根据片段特征参
3
数,将具有相似特征的片段聚合成 类,对生成的类数据集采用一定的片段拼接算法生成行驶工况[7,11],本文
1
采用的行驶工况构建流程如图 所示。
2.2 主成分分析
主成分分析法是一种多元统计方法,可以通过较少的综合变量尽可能多地反映原变量的信息。本文数据量大、数据维度多,且各维度之间有一定的信息重叠,通过主成分分析能够大幅减小数据规模,提高计算效率。2.3 聚类理论
K K- Means)
均值聚类( 作为最常用的聚类算法之
K
一,具有算法简单、收敛速度快等优点。 中心点聚类
K- Medoids) K
( 与 均值聚类不同,选用类中位置居于最
C
中心的对象作为迭代过程新聚类中心。模糊 均值算
Fuzzy C- Means,FCM) K
法( 与 均值聚类方法的主要区
FCM [0,1]
别在于 采用模糊划分,使得每个数据点用 区间内的隶属度来确定其属于各个类的程度。高斯混合模
Gaussian Mixture Models,GMM)
型( 每个维度用均值和标准差(方差)描述簇的形状。
3 数据采集与预处理3.1 数据采集
行驶工况的构建采用数据解析方法,对于样本量和
1
样本质量有一定要求。表 显示了收集数据的基本信息。每日数据由多个短行程组成,数据记录从汽车起动开始到汽车熄火结束。车型选择需要考虑用户覆盖不
A0 A B
同的职业和年龄段,选择了 级、 级、 级车型共计
20 6 2 800
辆。经过 个月的广泛采样,共采集了广州市余万条行驶数据。3.2 数据预处理短行程是汽车行驶过程中一个怠速开始到下一个怠速开始的运动学片段,可以看作怠速段与运动段的组
-
合。通过道路试验得到汽车运行过程中的速度 时间
111 321
数据,将数据分割成 个短行程片段。为了描述短片段的特征,选用行驶距离、最高车速、最大加速度、最小减速度、平均加速度、平均减速度、加速度标准差、平均车速、平均运行车速、速度标准差、减速时间、加速时间、怠速时间、巡航时间、片段时间作为特征参数。
2
对原始数据进行主成分分析,结果如表 所示。选
90% 4
择使累计贡献率达到 的前 个主成分代表所有原
91.28%
始变量,使得主成分方差贡献率达到 。
4 聚类方法对比分析
聚类方法多种多样,其效果对行驶工况构建的精度也有重要影响。行驶工况构建过程中涉及大量数据的
K K
处理,根据聚类方法适用性选取 均值聚类、 中心点聚类、模糊聚类与高斯混合聚类进行比较分析。
3
为了判断聚类方法的优劣,聚类中心设为 个,分
4 10
别运用 种方法进行 次聚类并对结果进行计算分析。4.1 聚类稳定性短片段的速度特征是描述片段的重要参数,每个类
交通状况,而本文构建的广州市行驶工况代表性、准确度高。
7 结束语
本文以广州市为例,利用短行程法、主成分分析法
4
对采集的数据集进行处理。对 种聚类方法进行比较
K
分析,并对 均值聚类进行了改进,改进算法稳定性大
6%
幅提高,生成的行驶工况平均相对误差小于 。
通过分析广州市试验数据与行驶工况的特征参数,验证了工况的准确性。广州市工况与世界典型工况对比结果表明,广州市行驶工况加减速比例高、低速段占主导、交通状态较拥堵,与其他代表性工况有一定差异。本文构建的工况在速度分布等方面较中国现行的
NEDC QC/T 759—2016
测试工况 和 更符合广州市的交通特点。
参考文献
[1] Brady J, O'mahony M. Development of a Driving Cycle to Evaluate the Energy Economy of Electric Vehicles in Urban Areas[J]. Applied Energy, 2016, 177(10): 165-178. [2] Nyberg P, Frisk E, Nielsen L. Using Real- World Driving Databases to Generate Driving Cycles With Equivalence Properties[J]. IEEE Transactions on Vehicular Technology, 2016, 65(6): 4095-4105. [3] André M. The ARTEMIS European Driving Cycles for Measuring Car Pollutant Emissions[J]. Science of the Total Environment, 2004, 334-335: 73-84. [4] Amirjamshidi G, Roorda M J. Development of Simulated Driving Cycles for Light, Medium, and Heavy Duty Trucks: Case of the Toronto Waterfront Area [J]. Transportation Research Part D: Transport and Environment, 2015, 34: 255-266. [5] Wang H, Zhang X, Ouyang M. Energy Consumption of Electric Based on Real- World Driving Patterns: a Case Study of Beijing [J]. Applied Energy, 2015, 157: 710-719. [6] Fotouhi M, Montazerigh M. Tehran Driving Cycle Development Using the K- Means Clustering Method[J]. Scientia Iranica A, 2013, 20(2): 286-293. [7] , , .石琴 仇多洋 周洁瑜 基于组合聚类法的行驶工况构建[J]. , 2012, 34(2): 165-169.与精度分 汽车工程[8] , , , .胡志远 范勤 谭丕强 等 上海市大样本基础车辆行驶工[J]. ( ), 2015: 1523-1527.况 同济大学学报自然科学版[9] , , , .李孟良 张建伟 张富兴 等 中国城市乘用车实际行驶工[J]. , 2006, 28(6): 554-557.况的研究 汽车工程[10] , , , .彭美春 林权臻 梁晓峰 等 广州市公交车行驶工况与ETC [J]. , 2012, 34(11): 1045城市工况的比较 汽车工程1047. [11] , , , . K彭育辉 杨辉宝 李孟良 等 基于 均值聚类分析的城[J]. , 2017,市道路汽车行驶工况构建方法研究 汽车技术(11): 13-18. [12] . [M]. : ,朱明 数据挖掘 合肥 中国科学技术大学出版社2002: 138-139.
(责任编辑 斛畔) 2019 1 15修改稿收到日期为 年 月 日。