Integrated PCA-BN Approach for Identifying the Water Quality Response Patterns for Lakes in Yunnan Plateau

JIANG Qingsong1, LIANG Zhongyao1, ZHAO Lei2, LI Yuzhao1, WU Sifeng1, LIU Yong1,†

ACTA Scientiarum Naturalium Universitatis Pekinensis - - Contents - JIANG Qingsong, LIANG Zhongyao, ZHAO Lei, et al

1. Key Laboratory of Water and Sediment Sciences (MOE), College of Environmental Science and Engineering, Peking University, Beijing 100871; 2. Yunnan Key Laboratory of Pollution Process and Management of Plateau Lake-watershed, Kunming 650034; † Corresponding author, E-mail: yongliu@pku.edu.cn

Abstract An integrated approach of principle components analysis (PCA) and Bayesian network (BN) for identifying the response pattern of different clusters were developed to understand sensitive relationships of water quality in lakes of Yunnan Plateau. The model includes four steps: data preconditioning, lakes clustering with PCA, Bayesian network learning and lake water quality response modeling. The results demonstrate that the 26 lakes can be clustered into two groups; the Chl a concentration responds more significantly to Total Nitrogen (TN) and Total Phosphorus (TP) in the first group, mainly resulting from much higher watershed disturbances; the Dissolved Oxygen (DO) in the first group with higher water temperature is close to saturation and have little change with Chl a increasing, while the second group is not; and there is good consistency on the relationship between Transparency (Sd)and Chl a in both groups. Key words plateau lakes; water quality; clustering; response pattern; principle components analysis; Bayesian network

湖泊在社会经济发展及提供生态服务功能方面发挥着不可替代的作用, 但由于流域污染物的过量排放, 湖泊面临水质下降、富营养化及生态退化等 [1–2]问题 。为了有效地进行湖泊污染防治, 必须以[3–4]响应关系为基础, 实施水质目标管理 。由于地质、气候、水环境特征等条件的差异, 不同湖泊的 国家重点基础研究发展计划(2015CB458900)和国家自然科学基金(41222002)资助收稿日期: 20160512; 修回日期: 20160904; 网络出版时间: 20170909

响应模式可能不同[5]。湖泊水质响应关系的研究需要长期持续的监测数据, 然而, 当前我国的湖泊监测主要集中于大湖泊[6–9], 面积小于 10 km2 的小湖

[10]泊缺乏长时间监测数据 。为探究监测数据匮乏的湖泊水质变量的响应模式, 可借助湖泊群的研究方法, 对湖泊群进行聚类, 进而研究不同类别湖泊的水质变量响应模式[11–12]。

湖泊聚类方法主要包括以下两种。1)水生态功能区划分方法[13–14], 即将具有相同特质的淡水生态系统或生物群体及相关的土地单元划为同一生态区, 如美国明尼苏达州拥有上万个湖泊, 研究人员根据水生态区确定取样规模, 用 10%的典型湖泊取样代表整个区域的湖泊状况[15]。然而, 即便在相同生态分区中, 湖泊的水交换周期、水深、水面积、湖泊系数等也不尽相同, 需要采用基于湖泊分层和

[16]循环周期的更小尺度的聚类方法 。2) 依据营养盐浓度或富营养化状态划分[17]。

上述聚类方法存在的主要问题是: 考虑的因素单一, 不能涵盖湖泊在营养浓度、形态学和分层持

[18]续时间等方面的差异 。为了将更多因素纳入聚

[19]类方法中, Akbar 等 应用主成分分析(PCA)与 K均值聚类法, 将加拿大 18 个湖泊分为 5 个类别。湖泊水质变量响应关系的研究方法包括统计模型和机理模型。机理模型需要连续的监测数据和相同的边界条件, 不适用于湖泊群响应模式的研究。统计学方法包括回归方法、机器学习方法、贝叶斯网络等。水质变量响应模式包括多条递进因果关系链, 一条链的“果”可能是下一条链的“因”, 回归和机器学习方法仅能同时处理一条因果关系链, 而贝叶斯网络(BN)可以同时处理多条因果关系链。此外, 由于在分析非线性和不确定性响应关系方面的优势, 贝叶斯网络广泛用于水质变量响应关系的识别中[20–21]。云南高原湖泊群在自然和人为干扰方面具有独

特性, 其流域水资源缺乏, 水体交换周期长, 富营养化敏感性高[22], 对该区域的研究相对缺乏[23–24]。本文收集 26 个云南高原湖泊水质调查数据, 构建适用于监测数据匮乏的湖泊群聚类和响应模式识别方法体系(PCA-BN), 以期识别湖泊群的水质响应模式, 分析不同类别湖泊响应模式的异同, 进一步探究不同响应模式的机理。

1研究对象与方法1.1研究对象

本文的研究对象是云南重点高原湖泊(滇池、洱海、程海、阳宗海、抚仙湖、泸沽湖, 面积>20 km2)和 20 个小湖泊(摆龙湖、碧塔海、草海湿地、芘碧湖、大屯海、海峰湿地、海西海、剑湖、拉市海、纳帕海、普者黑、青海湖、清水海、三角海、属都湖、天池、西湖、月湖、长海、长桥海, 面积>1 km2)。小湖泊为 2012 年秋季现场监测的 3 组数据, 6 个大湖泊为 2012 年同期常规监测的月数据。为表征湖泊的平均水平, 将同一湖泊的监测值取算术平均值。根据数据的可得性, 选取水温(WT)、溶解氧(DO)、透明度(SD)、总氮(TN)、总磷(TP)、叶绿素 a (Chl a)和高锰酸盐指数(CODMN)用于统计分析(表 1)。根据对数正态分布检验结果, SD, TN, TP, Chl a 和 CODMN符合对数正态分布, 对其进行对数处理。本文的数据分析基于 R 软件(R version 3.1.3, http://www.r-project.org)。

1.2 研究方法

PCA-BN 方法体系包括 4 个步骤: 1) 数据预处理, 2) PCA 降维与湖泊聚类, 3) 贝叶斯网络构建及参数学习, 4) 湖泊响应关系模拟, 如图 1 所示。

1.2.1 PCA

PCA 可以将多个具有相关性的指标转化为主成分[25]。作为变量降维和筛选的有效方法, PCA 在水环境领域中的主要应用是识别水质变量中的关键

[26–27] 其中 n 为样本个因素 。设样本空间为 X , n p数,p为指标个数。矩阵Z ( Z 1, Z ,..., Z )满足2 p Cov(z , Zj ) 0, i  j, (1) i p p Z  Q X =  qjxj , 使得 q 2 =1, (2) T j j 1 j 1

根据最大化映射的方差, 确定权重向量Q: max Var( QT X)  max Q T Var( X) Q, (3) q :||q||  1  q :||q||1 Q的方向由协方差矩阵 Var(x)最大特征值i 的特征向量 i 决定, 变换后矩阵 Z 的协方差Var(z)=diag{ 1,  ,...,  }满足2 p

1 2   p 。 (4)

PCA 将 p 个原始变量的总方差分解成不相关变量的方差之和, 其中第 i 个主成分Zi 的方差 λi 占p总方差的比例i /  称为主成分Zi的贡献率。一j j 1般地, 保留的主成分的特征根大于1 [28]。

1.2.2 BN

BN 表示变量间概率依赖关系的有向无环图,能够分析变量间的不确定性和非线性关系[29], 可表示为 B =<N, A, Θ>, 其中 N表示节点或变量全集, A 表示变量间概率依赖关系全集, Θ 表示条件概率分布表(CPT)的参数。这里每个节点 n∈ N 表示变

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.