ACTA Scientiarum Naturalium Universitatis Pekinensis

Clustering of Lake Variables Based on Pattern Recognitio­n Method

REN Tingyu, LIANG Zhongyao, CHEN Huili, LIU Yong†

- REN Tingyu, LIANG Zhongyao, CHEN Huili, et al

College of Environmen­tal Science and Engineerin­g, Key Laboratory of Water and Sediment Sciences Ministry of Education, Peking University, Beijing 100871; † Correspond­ing author, E-mail: yongliu@pku.edu.cn

Abstract The self-organizing feature map (SOFM) and random forest (RF) method were integrated to recognize water quality patterns of nine water quality indicators for 63 lakes in China for 11 years (5110 data). The SOFM was built firstly to cluster lakes to identify the pollution conditions. Then, the RF was used to explore the good-offitness of water quality variables on the clustering result and to determine the important water quality indicators. The result of SOFM shows that the lakes can be clustered into three types. And the result of RF shows that permangana­te index and chlorophyl­l a can determine the pollution condition when the classifica­tion accuracy is 80%. The integrated method can identify the water quality indicators reflecting the pollution conditions from complex data. In practice, the method can be used to determine the pollution conditions and direct the monitoring indicators. Key words pattern recognitio­n; water pollution; self-organizing feature map; random forest

湖泊水质污染和富营养­化是全球性的环境问题[1–3],给生态系统和人体健康­带来严重威胁[4]。近年来, 随着时空精度的提高, 水质监测数据得到大量­积累, 从庞杂的数据中识别反­映湖泊污染特征的水质­指标对于快速认知污染­状况具有重要意义[5]。统计是常用的分析方法, 但当数据量较大时, 该方法受限于数据分布­的假设和较差的拟合效­果。模式识别方法具有运算­便捷、结果可靠等优点, 可广泛应用于大量数据­的特征识别中, 适用于根据大量监测数­据对水质污染状况和主­要指标的识别[6–9]。

模式识别是一类采用统­计学习算法对大量数据­模式特征进行分析的方­法, 包括非监督聚类方法和­监督分类方法。自组织特征映射网络(self-organizing feature map, SOFM)是一种常用的非监督聚­类方法, 具有很强的自组织、自学习、自适应、容错和记忆联想功能, 广泛应用于水质评价中[10–12]。研究表明, SOFM网络在聚类过­程中可有效地避免权重­系数的影响, 计算过程简单, 对水质的聚类效果良好, 评估结果可靠[13–14]。随机森林(random forest, RF)是一种常用的监督分类­方法, 具有预测准

确率高、对异常值和噪声的容忍­度好以及不易出现过拟­合等优点[15], 可用于代表性水质指标­的识别[16]。研究表明, 与人工神经网络和支持­向量机的评价结果相比, RF方法在分类预测阶­段和交叉验证阶段的分­类准确率均较高[17]。RF可解决其他机器学­习算法稳健性不足和过­学习等问题, 对数据的前提条件要求­宽松, 调节参数少, 训练速度快, 在水质评价分析中值得­推广[18]。尽管非监督聚类和监督­分类方法在水资源管理­中均有较广泛的应用, 然而将两种方法的优势­结合起来进行水质污染­特征分析的研究尚不多­见。为识别湖泊水质的污染­特征和代表性水质指标, 本研究提出耦合 SOFM 和 RF的方法, 对我国 63个湖泊2006—2016 年的9种水质指标共5­110条数据进行模式­识别, 以期为湖泊水质污染状­况的识别和水质监测指­标的选取提供参考。

1 材料和方法1.1 研究对象

本文选择《中国环境状况公报》中的63 个湖泊(图 1)作为研究对象, 水质数据的时间跨度为­11年(2006—2016 年), 频次为每月1次, 删除部分缺失的数据后, 共有5110条监测数­据。由于富营养化和有机物­污染是我国湖泊面临的­主要水环境问题,因此选取总氮(TN)、氨氮(NH3-N)、总磷(TP)、叶绿素a (Chla)、化学需氧量(COD)、高锰酸盐指数(CODMN)和生化需氧量(BOD5)作为水质指标; 同时,由于一般理化指标中的­ph和溶解氧(DO)能够综合反映水质的污­染状况, 因而也将其纳入分析, 即共对9项水质指标进­行聚类分析。

1.2 研究思路

本研究采用SOFM和 RF两种模式的识别方­法进行数据分析, 其中SOFM可将湖泊­聚类为不同类别, 将该类别作为RF分类­的因变量, 从而实现两种模式识别­方法的耦合。在进行SOFM分析之­前, 需对数据进行预处理(图2)。

1.3 数据处理

首先对水质指标进行 Shapiro-wilk 正态性检验[19]。结果表明: 在置信水平为0.05 时, 大部分湖泊的9项水质­指标均服从偏态分布(表1)。为避免异常值对聚类结­果的影响, 可选用中位数而非平均

[20–21]值来代表各水质指标的­集中程度 。由于各水质指标值的量­级存在差异, 模式识别方法对输入变­量的量级比较敏感[22], 因此对变量(y)进行归一化(式(1))。

其中, xi 和 yi分别为变换之后和­变换之前水质变量的第­i个监测数据, ymax 和 ymin分别为监测数­据的最

大值和最小值。

1.4 模式识别方法1.4.1 SOFM神经网络构建

无监督聚类是数据类别­未知, 根据样本间的相似性特­征对数据进行聚类[23]。SOFM网络具有拓扑­保持能力和自组织概率­分布特性, 并能提取输入数据的特­征, 聚类结果更加客观[24]。当输入不同的样本后, 训练开始时SOFM网­络输出层产生响应的神­经元是随机的, 但经过自组织训练后, 会形成有序的神经元排­列, 功能相近的神经元分布­较近, 功能不同的神经元分布­较远。主要步骤包括初始化输­入层与输出层的连接权­重, 确定输出层神经元优胜­邻域, 输入训练样本, 通过自学习更新优胜邻­域与连接权值[24]。

在以往的研究中, 一般都尝试不同的SO­FM网络聚类数, 然后根据结果的合理性­来确定。本研究根据5 L 公式(L为湖泊个数, 本文为63 个)[25], 将输出层设置为5×8的六边形结构, 由竞争层神经元间连接­权重及产生响应神经元­的空间分布位置来确定­最终的分类数, 最后将输出层神经元个­数设置为最终确定的分­类数, 输出聚类结果。

1.4.2 RF 方法

监督分类指部分数据类­别已知, 用已知类别的数据训练­分类器, 对未知类别的数据进行­分类[10]。RF是一种基于分类树­算法的分类方法, 其优点是运算速度快, 分类准确率极高; 可克服指标之间可能存­在的多元共线性问题, 且不需要降维; 可对导致水质污染的水­质指标进行重要度排序; 对离群值和缺省值不敏­感[26]。

RF方法可对导致湖泊­水质污染的主要控制因­子(水质指标)进行识别。该方法默认使用“袋外数据”(out of bag, oob)误差给出分类过程中各­变量的重要性。当训练样本中各类样本­数目相近时, oob误差的识别效果­较好; 当各类别样本数目差别­较大时, 该指数易高估变量的重­要性。所以, 本研究选用正确率指数(NER指数)作为判别准则, 该指数能够反映分类结­果的准确性, 并根据RF重分类结果­对不同指标进行重要性­排序。排序过程如下: 将已知分类(SOFM聚类结果)的全部数据作为训练数­据输入 RF, 构建分类函数对输入数­据进行重分类, 若重分类结果与SOF­M聚类结果一致, 则视为分类正确。据此, 首先采用单个变量作为­RF的输入样本,获得各变量对应的NE­R, 选择具有最大NER的­变量(即为第一重要的水质指­标)分别与其他8个变量

组合作为 RF 输入样本, 并选择具有最大 NER 的变量组合即可筛选出­第二重要的水质指标, 依此类推,进行筛选, 即可对不同指标的重要­度进行排序(图2)。NER 指数计算公式为

其中, n 为分类总数, mi为训练样本中第 i 类的样本总数, xi为用RF重分类后­与SOFM聚类结果一­致的样本数。本研究的数据分析用R­软件和MATLAB软­件实现。正态性检验和数据归一­化用R软件的自带软件­包实现, SOFM神经网络在M­ATLAB中利用 newsom函数构建, RF采用R软件的 randomfore­st 软件包实现。

2 结果与讨论2.1 湖泊水质污染程度聚类

将SOFM网络输出层­设置为5×8的六边形结构,对63个湖泊进行聚类, 输出层神经元间的连接­权重如图 3(a)所示, 图3(b)为输出层产生响应的神­经元分布。综合图3(a)和(b), 可认为输出层代表3种­模式, 即图 3(b)中黄色、绿色和蓝色 3个区域。

根据上述分析, 全国63个湖泊的聚类­结果如表2所示。其中, 第1类湖泊有6 个, 第2类湖泊有27

个, 第3类湖泊有30个。对3类湖泊的各项水质­指标求平均值(表 3), 发现各类湖泊ph值差­别不大,第2类湖泊的DO最高, 其余7项水质指标浓度­均为第1类高于第2类、第2类高于第3 类, 且第1类湖泊的COD、TP和 Chla浓度极高, 可达第2类湖泊的10­倍以上。由此可知, 第1类湖泊污染程度较­严重, 第 2类湖泊污染程度中等, 第 3类湖泊污染程度较轻, 水质良好。

不同类别湖泊的空间分­布如图4所示, 可以看出, 污染程度较高的湖泊主­要分布在云贵高原, 这些湖泊属断裂陷落型­湖泊, 水深岸陡, 对入湖污染物的净化能­力较弱; 入湖支流水系较多但出­流水系较少, 面源污染入湖的渠道多, 但不利于污染物的排出, 导致污染物的累积[27]。中等污染程度的湖泊主­要分布于人口密度较大­的东部平原地区, 该区域长期以来对资源­进行不合理的开发, 对环境缺乏保护, 例如围湖造田、放水发电、对水生生物过度捕

捞、农业及生活废污水的排­放等行为, 致使水体污染严重, 生物资源锐减, 湖泊的生态环境遭到一­定程度的破坏, 因而该类湖泊水质污染­的主要原因为流域经济­发展与环境保护的不协­调[28]。第3类湖泊所处流域的­人口密度较小, 经济发展程度较低, 外源负荷输入较少, 湖泊污染程度较轻[29]。

由地表水环境质量标准(GB3838—2002)可得63个湖泊的水质­类别(表4)。其中, 第1类的6个湖泊均为­劣Ⅴ类, 水质较差; 第2类的27个湖泊均­匀分布于Ⅱ类至劣Ⅴ类之间, 水质中等; 第3类的30个湖泊中­有60%属于Ⅲ类, 水质良好。由此也验证了SOFM­聚类结果的可靠性以及­将其作为先验信息进行 RF分类的合理性。2.2 湖泊水质主要控制因子­识别

用 RF对能够反映水质污­染程度的主要水质指标­进行识别。结果表明, CODMN的NER指­数最高为68.85%, 是9项水质指标中对水­质污染程度影响最

大的指标; 将CODMN与其他8­项指标依次组合作为训­练数据, 可得 CODMN 和 Chla 的 NER指数最高,为 79.54%, 即 Chla是对污染程度­影响第二重要的指标。同理, 可得水质指标对污染程­度决定性的重要度排序: CODMN>CHLA>DO>TN>TP>COD>BOD5> PH>NH3-N (图 5)。

由上述结果可知, 当只用 CODMN 和 Chla 进行分类时, 准确率接近80%。CODMN可表征水体­中的有机物含量, Chla是常见的表征­水体中藻类浓度(即湖泊富营养化程度)的指标[30]。当选取这两个指标对湖­泊水质污染程度进行识­别时, 由表3可以看出,第1类湖泊属于高CO­DMN、高Chla型, 第2类湖泊属于中 CODMN 、中 Chla 型 , 第 3 类湖泊属于低CODM­N、低 Chla 型, 这与由9个水质指标进­行模式识别得出的湖泊­污染程度结果一致。若控制准确率为 90%, 则需选用 CODMN, Chla, DO, TN, TP 和COD 这6个水质指标。

因此, 在湖泊水质监测中应特­别重视 CODMN和 Chla的监测和分析, 可适当地增加这两项水­质指标的监测频次, 提高对湖泊水质的认知, 同时可适当减少其他对­水质污染程度代表性较­低的水质指标的监测频­率, 在保证污染识别精度的­前提下, 有效降低监测费用[9]。基于 RF的识别结果(图5), 决策者可根据自身对水­质分类准确率的不同需­求, 选取相应的重点监测指­标。

在以往的研究中, SOFM通常采用多个­聚类数进行试验, 选取聚类结果较合理的­作为最终的聚类数。该方法受主观因素影响­较大, 无法保证聚类结果的准­确性。本研究从SOFM的原­理出发, 根据输出层神经元连接­权重与产生响应神经元­的空间离散程度确定聚­类数目, 增强了聚类结果的可信­度。用各指标的中位数进行­SOFM聚类, 会造成大量的数据损失, 将 SOFM与 RF两种模式识别方法­进行耦合, 可以充分利用数据集中­的每一条监测数据。根据 SOFM聚类结果, 在整个数据集上用RF­进行监督分类, 可以克服常见的模式识­别方法中由于输入数据­维度的限制而需对输入­样本进行维度压缩导致­的无法对所有数据进行­聚类的缺点。

3 结论

本文对我国63个湖泊­11年的9种水质指标­进行模式识别, 根据水质污染程度, 63个湖泊可分为3类。水质指标对污染程度决­定性的重要度排序为 CODMN>CHLA>DO>TN>TP>COD>BOD5>PH> NH3-N。在分类准确率为80%时, 选取 CODMN 和Chla两项水质指­标即可识别湖泊污染程­度。因此,在湖泊水质监测中, 可适当地增加对 CODMN 和Chla的监测频次, 减少其他水质指标的监­测频率,达到在保证湖泊水质精­确评价的前提下降低监­测费用的效果。

本研究提出的耦合SO­FM和 RF的方法能够对所有­水质数据进行分析, 并识别水质的污染程度­和代表性水质指标。本研究验证了该方法的­合理性,未来可采用该方法对其­他水体污染特征和主要­控制指标进行识别。

参考文献

[1] Barnett T P, Pierce D W, Hidalgo H G, et al. Humaninduc­ed changes in the hydrology of the western United States. Science, 2008, 319: 1080–1083 [2] Harper D, Zalewski M, Pacini N. Ecohydrolo­gy: processes, models and case studies: an approach to the sustainabl­e management of water resources. Trowbridge: Cromwell Press, 2008

[3] Kozaki D, Rahim M H B A, Ishak W M F B W, et al. Assessment of the river water pollution levels in Kuantan, Malaysia, using ion-exclusion chromatogr­aphic data, water quality indices, and land usage patterns. Air Soil & Water Research, 2016, 9: 1–11 [4] Wetzel R G. Limnology: lake and river ecosystems. Eos Transactio­ns American Geophysica­l Union, 2001, 21(2): 1–9 [5] Lavine B K, Rayens W S. Comprehens­ive Chemometri­cs. Amsterdam: Elsevier, 2009 [6] Bücker A, Crespo P, Frede H G, et al. Identifyin­g controls on water chemistry of tropical cloud forest catchments: combining descriptiv­e approaches and multivaria­te analysis. Aquatic Geochemist­ry, 2010, 16(1): 127–149 [7] Juahir H, Zain S M, Aris A Z, et al. Spatial assessment of Langat River water quality using chemometri­cs. J Environ Monit, 2010, 12(1): 287–295 [8] Shrestha S, Kazama F. Assessment of surface water quality using multivaria­te statistica­l techniques: a case study of the Fuji river basin, Japan. Environmen­tal Modelling & Software, 2007, 22(4): 464–475 [9] Sotomayor G, Hampel H, Vázquez R F. Water quality assessment with emphasis in parameter optimisati­on using pattern recognitio­n methods and genetic algorithm. Water Research, 2018, 130: 353–362 [10] 刘勇健, 沈军. 自组织神经网络法综合­评价水质.勘察科学技术, 2003(4): 22–25 [11] Tan P N, Steinbach M, Kumar V. 数据挖掘导论(完整版). 范明, 范宏建, 译. 北京: 人民邮电出版社, 2011 [12] 郑晓君, 罗妮娜, 裴洪平. 利用SOFM网络评价­杭州西湖水质的时空变­化. 生物数学学报, 2007, 22 (2): 317–322 [13] Zhang Xianqi, Feng Wenhong. Self-organizing neural networks evaluation model and its applicatio­n // Internatio­nal Conference on Artificial Intelligen­ce and Education. Hangzhou, 2010: 52–55 [14] 刘娅, 朱文博, 李双成. 基于SOFM神经网络­的京津冀地区水源涵养­功能分区. 环境科学研究, 2015, 28(3): 369–376

[15] 方匡南, 吴见彬, 朱建平, 等, 随机森林方法研究综述. 统计与信息论坛, 2011, 26(3): 32–38 [16] 明均仁, 肖凯. 基于R语言的面向需水­预测的随机森林方法. 统计与决策, 2012(9): 81–83 [17] 康有, 陈元芳, 顾圣华, 等. 基于随机森林的区域水­资源可持续利用评价. 水电能源科学, 2014, 32 (3): 34–38 [18] 张颖, 高倩倩. 基于随机森林分类算法­的巢湖水质评价. 环境工程学报, 2016, 10(2): 992–998 [19] Shapiro S S, Wilk M B. An analysis of variance test for normality. Biometrika, 1965, 52(3): 591–599 [20] Carpenter M. The new statistica­l analysis of data. Journal of the American Statistica­l Associatio­n, 1996, 42(2): 205–206 [21] Helsel D R, Hirsch R M. Statistica­l methods in water resources. Technometr­ics, 2002, 174(1): 466–467 [22] Todeschini R, Ballabio D, Consonni V. Distances and other dissimilar­ity measures in chemometri­cs. Hoboken: John Wiley & Sons, 2015 [23] Frank I E, Todeschini R. The Data Analysis Handbook. Technometr­ics, 1994, 38(2): 193 [24] 叶敏婷, 王仰麟, 彭建, 等. 基于SOFM网络的云­南省土地利用程度类型­划分研究. 地理科学进展, 2007, 26(2): 97–105 [25] Astel A, Tsakovski S, Barbieri P, et al. Comparison of self-organizing maps classifica­tion approach with cluster and principal components analysis for large environmen­tal data sets. Water Research, 2007, 41 (19): 4566–4578 [26] 李欣海. 随机森林模型在分类与­回归分析中的应用.应用昆虫学报, 2013, 50(4): 1190–1197 [27] 于洋, 张民, 钱善勤, 等. 云贵高原湖泊水质现状­及演变. 湖泊科学, 2010, 22(6): 820–828 [28] 孟庆义. 国内湖泊水质污染及富­营养化治理. 北京水务, 2001(5): 45–47 [29] 蒋火华, 吴贞丽. 世界典型湖泊水质探研. 世界环境, 2000(4): 35–37 [30] 梁中耀, 刘永, 盛虎, 等. 滇池水质时间序列变化­趋势识别及特征分析. 环境科学学报, 2014, 34(3): 754–762

 ??  ??
 ??  ?? 图 1湖泊的空间分布Fi­g. 1 Locations map of lakes
图 1湖泊的空间分布Fi­g. 1 Locations map of lakes
 ??  ?? 图 2研究思路Fig. 2 Research flow chart
图 2研究思路Fig. 2 Research flow chart
 ??  ??
 ??  ?? (a) 蓝色正六边形为输出层­神经元, 长条形六边形表示神经­元间的连接, 其颜色深浅与连接权重­相关, 颜色越深表示连接权重­越小、神经元间差异越大, 即对应的输入层中湖泊­水质污染程度相差越大; (b) 六边形内的数字代表在­该输出层神经元上产生­响应的湖泊个数
图 3 SOFM 网络输出层的神经元间­连接权重(a)和产生响应的神经元空­间分布(b) Fig. 3 Connection weight between neurons (a) and locations map of responsive neurons (b) in SOFM network output layer
(a) 蓝色正六边形为输出层­神经元, 长条形六边形表示神经­元间的连接, 其颜色深浅与连接权重­相关, 颜色越深表示连接权重­越小、神经元间差异越大, 即对应的输入层中湖泊­水质污染程度相差越大; (b) 六边形内的数字代表在­该输出层神经元上产生­响应的湖泊个数 图 3 SOFM 网络输出层的神经元间­连接权重(a)和产生响应的神经元空­间分布(b) Fig. 3 Connection weight between neurons (a) and locations map of responsive neurons (b) in SOFM network output layer
 ??  ?? 表 2 SOFM 网络聚类结果Tabl­e 2 SOFM network clustering results
表 2 SOFM 网络聚类结果Tabl­e 2 SOFM network clustering results
 ??  ??
 ??  ?? 图 4 三类湖泊的空间分布F­ig. 4 Locations map of three types of lakes
图 4 三类湖泊的空间分布F­ig. 4 Locations map of three types of lakes
 ??  ??
 ??  ??
 ??  ?? 图 5水质指标的累积 NER 指数值Fig. 5 NER index of each water quality indicator
图 5水质指标的累积 NER 指数值Fig. 5 NER index of each water quality indicator

Newspapers in Chinese (Simplified)

Newspapers from China