ACTA Scientiarum Naturalium Universitatis Pekinensis

基于集合经验模态分解­和BP神经网络的北京­市PM2.5预报研究

任晓晨1,4 邹思琳1 唐娴2 韦骏3,†

-

1. 北京大学物理学院大气­与海洋科学系, 北京 100871; 2. 中国气象局公共气象服­务中心, 北京 100081; 3. 中山大学大气科学学院, 广州 510275; 4. 中国人民解放军 96813 部队, 黄山 245000; † 通信作者, E-mail: junwei@pku.edu.cn

摘要 利用集合经验模态分解­算法(EEMD)和BP神经网络组成的­混合模型, 对北京城区PM2.5浓度值进行短期预报。结果表明, 与单独使用BP神经网­络模型相比, EEMD-BP混合模型的预报准­确率更高; 混合模型高频部分的预­报误差是整体误差的主­要方面; 混合模型的输入变量中­需包含输出变量的信息; 前期污染物浓度的数值­对模型的预报结果有较­大的影响。关键词 集合经验模态分解算法(EEMD); BP 神经网络; PM2.5 预报

近年来, 北京的高速发展引发不­少环境问题,其中的空气污染问题, 特别是大气中可吸入颗­粒物危害人体健康的问­题越来越受重视。李令军等[1]发现, 近期北京重污染天气的­首要污染物为PM2.5。PM2.5指大气中直径小于或­等于2.5 μm的颗粒状悬浮物。研究发现, 环境中 PM2.5浓度的提高增加了

[2‒4]人类因心血管疾病引发­的死亡风险 。此外, PM2.5可以对大气的辐射过­程产生影响[5‒6], 进而对大气的能见度、降水等一系列天气现象­以及气候变

化造成影响[7‒9]。因此, 研究 PM2.5的特征并对其浓度值­进行预报十分必要。

目前, PM2.5浓度值的预报方法主­要有确定性方法 (determinis­tic approaches)和统计方法(statistica­l approaches)[10]。zhang 等[11‒12]对实时空气质量预报的­研究历史和现状、面临的挑战和发展方向­做了总结, 指出确定性方法在提高­气象场预报准确率和模­型输入条件准确率、模型中化学物理过程的­描述、精度提高和计算有效性­提升等方面仍面临着挑­战。

统计方法需要利用大量­历史观测数据, 通过回归分析和机器学­习等方法找出不同变量­之间的函数关系, 再应用到未来的预报中[10]。

近年来, 机器学习方法逐渐展现­出对大数据的非线性处­理能力和广泛的应用前­景。Wei等[13]利用机器学习算法估算­台风引起的海表温度降­温, 为台风预报模式设计了­台风引起海表降温的参­数化方

[14]案。Jiang 等 利用卷积神经网络(convolutio­nal neural network, CNN)算法, 研究台风和海洋表面反­馈机制, 改进了台风数值预报模­型, 2015—2016年间 17个台风强度的预报­准确率比模型改进前提­高

[15]约 20%。Li 等 利用人工神经网络模型­重建印尼贯穿流ITF­的多年代际长时间序列。作为一种有效的统计预­报方法, 人工神经网络在空气污­染预报研究中也有广泛­的应用。Dutot等[16]使用改进的多层感知机­模型(multilayer perceptron, MLP), 提高了传统MLP模型­对O3的预报准确率, 且优于确定性方

[17]法CHIMERE模型­的结果。Zhou等 利用集合经验模态分解(EEMD)与广义回归神经网络(generalize­d regression neural network, GRNN)模型相结合的方法, 对西安市的 PM2.5浓度值进行预测, 并分别与多元线性回归­模型、主成分回归模型、差分整合移动平均自回­归模型以及单独使用G­RNN 模型进行对比, 发现混合模型的效果均­优于其他模型。Feng

[10]等 综合利用气团轨迹追踪­模型、小波转换以及神经网络­算法建立一套混合模型­来预报北京市的PM2.5浓度值, 得到较好的结果。

与多种算法融合使用的­混合模型相比, 单独使用任意一种神经­网络模型都不能产生最­优的预测结果[15,18‒19],因此混合模型成为一种­更有效的预测方法。之前的研究中, 混合模型主要用于对模­型的输入条件进行筛选­和优化, 对 PM2.5浓度值的预测仍然采­用传统的BP (back-propagatio­n)神经网络方法,并且未对混合模型的优­势和单一模型的不足以­及模型对输入变量的敏­感性进行具体的分析。本文使用EEMD-BP混合模型对北京市­日均PM2.5浓度值进行预测, 与前人工作的不同之处­在于, 我们首先将PM2.5时间序列进行EEM­D分解, 然后对分解后的固有模­态函数(intrinsic mode function, IMF)进行神经网络建模和预­测, 从而揭示BP神经网络­对不同时间频率 PM2.5固有模态的预测技巧, 并通过筛选和优化混合­模型参数和输入条件, 为改进 PM2.5 预测模型提供新的思路。

1 方法和数据1.1 集合经验模态分解(EEMD)模型

[20]经验模态分解(EMD)模型由 Huang 等 于1998年提出。该方法能够根据信号的­特点, 自适应地将信号分解为­从高频到低频的一系列­固有模态函数(IMF)。其基本思路是通过3次­样条插值, 拟合出信号的极大值和­极小值包络线, 进而得到数据的瞬时平­衡位置。该方法直接从信号获取­基函数, 因此具有自适应性。由于原始信号存在各种­干扰, 且EMD的筛选方法未­必严格地从小到大单调­变化,因此可能产生尺度交叉­现象, 即出现模态混叠问题。为了解决该问题, Wu等[21]提出使用 EEMD方法对原始序­列进行模态分解, 以抑制模态混叠现象。EEMD方法是将白噪­声加入原始信号, 利用白噪声频谱的均匀­分布, 当信号加在遍布整个时­频空间且分布一致的白­噪声背景上时, 不同时间尺度的信号会­自动地分布到合适的参­考尺度上, 并且由于白噪声均值为­零的特性, 经多次平均后, 加入的噪声信号将相互­抵消, 就可以将集成均值的结­果作为最终结果。基本步骤如下。

1) 给原始信号x(t)加入一组白噪声 ( t), 得到新的信号序列 X(t):

X ( t )  x ( t )  ( t)。2) 对X(t)进行EMD分解, 得到一组IMF分量:

( )  n  ( )  ( 。X t 1imf t r t)

j 1 j式中, imfj(t)表示第 j个 IMF分量, r(t)为趋势项。

3) 对原始信号重复步骤1­和2多次(m次), 每次加入不同的白噪声, 每次均得到一组IMF­分量:

( )  n 1 imf ( )  )。X t t r (t

i j 1 ji i 4) 将每次得到的IMF分­量集成均值, 作为最终结果:

1.2 BP神经网络模型

BP神经网络是一种基­于误差反向传播算法(error back-propagatio­n)的前馈神经网络, 由一个输入层、一个或多个隐层和一个­输出层构成, 其基本结构如图 1 所示。

 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China