ACTA Scientiarum Naturalium Universitatis Pekinensis
基于集合经验模态分解和BP神经网络的北京市PM2.5预报研究
任晓晨1,4 邹思琳1 唐娴2 韦骏3,†
1. 北京大学物理学院大气与海洋科学系, 北京 100871; 2. 中国气象局公共气象服务中心, 北京 100081; 3. 中山大学大气科学学院, 广州 510275; 4. 中国人民解放军 96813 部队, 黄山 245000; † 通信作者, E-mail: junwei@pku.edu.cn
摘要 利用集合经验模态分解算法(EEMD)和BP神经网络组成的混合模型, 对北京城区PM2.5浓度值进行短期预报。结果表明, 与单独使用BP神经网络模型相比, EEMD-BP混合模型的预报准确率更高; 混合模型高频部分的预报误差是整体误差的主要方面; 混合模型的输入变量中需包含输出变量的信息; 前期污染物浓度的数值对模型的预报结果有较大的影响。关键词 集合经验模态分解算法(EEMD); BP 神经网络; PM2.5 预报
近年来, 北京的高速发展引发不少环境问题,其中的空气污染问题, 特别是大气中可吸入颗粒物危害人体健康的问题越来越受重视。李令军等[1]发现, 近期北京重污染天气的首要污染物为PM2.5。PM2.5指大气中直径小于或等于2.5 μm的颗粒状悬浮物。研究发现, 环境中 PM2.5浓度的提高增加了
[2‒4]人类因心血管疾病引发的死亡风险 。此外, PM2.5可以对大气的辐射过程产生影响[5‒6], 进而对大气的能见度、降水等一系列天气现象以及气候变
化造成影响[7‒9]。因此, 研究 PM2.5的特征并对其浓度值进行预报十分必要。
目前, PM2.5浓度值的预报方法主要有确定性方法 (deterministic approaches)和统计方法(statistical approaches)[10]。zhang 等[11‒12]对实时空气质量预报的研究历史和现状、面临的挑战和发展方向做了总结, 指出确定性方法在提高气象场预报准确率和模型输入条件准确率、模型中化学物理过程的描述、精度提高和计算有效性提升等方面仍面临着挑战。
统计方法需要利用大量历史观测数据, 通过回归分析和机器学习等方法找出不同变量之间的函数关系, 再应用到未来的预报中[10]。
近年来, 机器学习方法逐渐展现出对大数据的非线性处理能力和广泛的应用前景。Wei等[13]利用机器学习算法估算台风引起的海表温度降温, 为台风预报模式设计了台风引起海表降温的参数化方
[14]案。Jiang 等 利用卷积神经网络(convolutional neural network, CNN)算法, 研究台风和海洋表面反馈机制, 改进了台风数值预报模型, 2015—2016年间 17个台风强度的预报准确率比模型改进前提高
[15]约 20%。Li 等 利用人工神经网络模型重建印尼贯穿流ITF的多年代际长时间序列。作为一种有效的统计预报方法, 人工神经网络在空气污染预报研究中也有广泛的应用。Dutot等[16]使用改进的多层感知机模型(multilayer perceptron, MLP), 提高了传统MLP模型对O3的预报准确率, 且优于确定性方
[17]法CHIMERE模型的结果。Zhou等 利用集合经验模态分解(EEMD)与广义回归神经网络(generalized regression neural network, GRNN)模型相结合的方法, 对西安市的 PM2.5浓度值进行预测, 并分别与多元线性回归模型、主成分回归模型、差分整合移动平均自回归模型以及单独使用GRNN 模型进行对比, 发现混合模型的效果均优于其他模型。Feng
[10]等 综合利用气团轨迹追踪模型、小波转换以及神经网络算法建立一套混合模型来预报北京市的PM2.5浓度值, 得到较好的结果。
与多种算法融合使用的混合模型相比, 单独使用任意一种神经网络模型都不能产生最优的预测结果[15,18‒19],因此混合模型成为一种更有效的预测方法。之前的研究中, 混合模型主要用于对模型的输入条件进行筛选和优化, 对 PM2.5浓度值的预测仍然采用传统的BP (back-propagation)神经网络方法,并且未对混合模型的优势和单一模型的不足以及模型对输入变量的敏感性进行具体的分析。本文使用EEMD-BP混合模型对北京市日均PM2.5浓度值进行预测, 与前人工作的不同之处在于, 我们首先将PM2.5时间序列进行EEMD分解, 然后对分解后的固有模态函数(intrinsic mode function, IMF)进行神经网络建模和预测, 从而揭示BP神经网络对不同时间频率 PM2.5固有模态的预测技巧, 并通过筛选和优化混合模型参数和输入条件, 为改进 PM2.5 预测模型提供新的思路。
1 方法和数据1.1 集合经验模态分解(EEMD)模型
[20]经验模态分解(EMD)模型由 Huang 等 于1998年提出。该方法能够根据信号的特点, 自适应地将信号分解为从高频到低频的一系列固有模态函数(IMF)。其基本思路是通过3次样条插值, 拟合出信号的极大值和极小值包络线, 进而得到数据的瞬时平衡位置。该方法直接从信号获取基函数, 因此具有自适应性。由于原始信号存在各种干扰, 且EMD的筛选方法未必严格地从小到大单调变化,因此可能产生尺度交叉现象, 即出现模态混叠问题。为了解决该问题, Wu等[21]提出使用 EEMD方法对原始序列进行模态分解, 以抑制模态混叠现象。EEMD方法是将白噪声加入原始信号, 利用白噪声频谱的均匀分布, 当信号加在遍布整个时频空间且分布一致的白噪声背景上时, 不同时间尺度的信号会自动地分布到合适的参考尺度上, 并且由于白噪声均值为零的特性, 经多次平均后, 加入的噪声信号将相互抵消, 就可以将集成均值的结果作为最终结果。基本步骤如下。
1) 给原始信号x(t)加入一组白噪声 ( t), 得到新的信号序列 X(t):
X ( t ) x ( t ) ( t)。2) 对X(t)进行EMD分解, 得到一组IMF分量:
( ) n ( ) ( 。X t 1imf t r t)
j 1 j式中, imfj(t)表示第 j个 IMF分量, r(t)为趋势项。
3) 对原始信号重复步骤1和2多次(m次), 每次加入不同的白噪声, 每次均得到一组IMF分量:
( ) n 1 imf ( ) )。X t t r (t
i j 1 ji i 4) 将每次得到的IMF分量集成均值, 作为最终结果:
1.2 BP神经网络模型
BP神经网络是一种基于误差反向传播算法(error back-propagation)的前馈神经网络, 由一个输入层、一个或多个隐层和一个输出层构成, 其基本结构如图 1 所示。