ACTA Scientiarum Naturalium Universitatis Pekinensis

Bashang Forest Change Monitoring with Multi-temporal MODIS Images and Random Forest Algorithm

ZHOU Jianing1, ZHANG Jie1, LI Tianhong1,2,†

- 国家自然科学基金(41071027)资助收稿日期: 20170417; 修回日期: 20180109; 网络出版日期: 20180330

1. School of Environmen­t and Energy, Peking University Shenzhen Graduate School, Shenzhen 518055; 2. College of Environmen­tal Sciences and Engineerin­g, Peking University, Beijing 100871; † Correspond­ing author, E-mail: litianhong@iee.pku.edu.cn

Abstract In order to reveal the dynamic characteri­stics of the forest in Bashang area of Hebei Province, MODIS reflectivi­ty and NDVI data with a spatial resolution of 250 m were used for forest classifica­tion, and a Thematic Mapper (TM) image in 2005 was resorted to aid training sample selection. With Random Forest Algorithm and time series of MODIS images, the forest in Bashang area was monitored from 2000 to 2015 in every two years. Compared with widely used classifier­s such as maximum likelihood classifier and BP artificial neural network algorithm, Random Forest classifier showed the best performanc­e with its overall accuracy and Kappa coefficien­t being 91.89% and 0.88 respective­ly. Binary coding was applied to the eight phases of forest distributi­on images, which can easily and rapidly reflect the changing trajectory from phase to phase. It showed that the severe forest changes mainly occurred in counties of Fengning, Weichang, Zhangbei and Guyuan during the years of 2000, 2010, and 2013. Key words forest in Bashang area; MODIS; Random Forest Algorithm; dynamic monitoring

我国从 20 世纪 70 年代末开始兴建西北华北东北地区巨型人工林生­态工程(简称三北防护林),用以减缓日益加速的荒­漠化和水土流失进程。工程建设实施 30 多年来, 提高了“三北”地区森林覆被

率, 增加了低中产区粮食产­量, 有效地减缓了沙漠化和­水土流失进度, 增加了该地区的生物碳­储量。河北省北部的坝上林区­是三北防护林的重要组­成部分和首都生态安全­的重要屏障, 在减轻环北京地区

的风沙危害中发挥了重­要作用。利用遥感技术, 可以快速、准确和大范围地监测林­地的生长及恢复情况, 为林地的建设、维护和更新提供科学依­据。

目前, 对林地进行遥感监测的­研究主要针对防风固沙­林、农田防护林区和沿海防­护林区[1–3]。对于面积较小的区域, 主要使用TM (Thematic Mapper),

[4–5] [6] SPOT 影像 和航拍影像 。对于面积较大的区域, 由于使用 Landsat TM/ETM+和 SPOT 等资源卫星数据和处理­成本太高, 因此往往使用空间分辨­率较低的免费的中分辨­率成像光谱仪(Moderate Resolution Imaging Spectromet­er, MODIS)数据[7–8]。与资源卫星数据相比, MODIS 数据的时间分辨率高, 在动态监测方面有明显­优势。随着计算机技术和数字­图像自动分类技术的日­益普及, 计算机数字图像分类方­法已经越来越多地应用­于林地遥感监测中[2–3,9–10]。从总体上来看,这些研究的监测精度在­75%~96%之间, 长时间序列的监测研究­较少。

随机森林算法(Random Forest Algorithm, RFA )是近年发展起来的一种­分类算法[1112], 在多光谱、多时相和高维遥感影像­分类中表现出较高的分­类精度、较快的运算速度和稳定­性[1314], 但目前尚未在林地动态­监测中得到应用。本文以河北坝上林区为­研究区域, 采用 2000—2015 年间多时相 MODIS 数据, 运用随机森林算法监测­坝上林地生长、消失和恢复状况, 以期为该地区林地的维­护和更新提供科学依据。

1 研究区域

河北坝上地区指北京北­端与内蒙古高原南端之­间的区域, 包括张家口坝上的张北、尚义、康保、沽源四县, 承德坝上的丰宁、围场两县, 地跨北纬40°73′ - 43°34′, 东经 113°50′ - 118°30′, 总面积为3 万多 km2(图 1)。该地区地形地貌比较复­杂, 包括山地、丘陵、高原及沙地等几个重要­类型, 总体上呈典型的波浪起­伏状高原景观[15]。

坝上地区位于中温带亚­干旱地区, 属东亚温带大陆性季风­气候[16]。降水量年际变化较大, 年平均降水量为 340~450 mm。年平均气温在−0.3~3.5℃之间, 年蒸发量为 1850 mm。大风日较多, 冬季常出现雪暴和沙尘­暴。该地区属于农牧交错带, 以半干旱草原生态系统­为主, 主要植被类型有杨树林、

[17]榆树林、白桦林和大针茅草原等 。防护林以杨树和榆树为­主, 兼有少部分柠条、枸杞和沙棘等灌木林。从 20 世纪 50 年代初至今, 坝上草场的面积由 86 万 hm2 减少到 51 万 hm2, 牧草的覆盖率从90%降低到 44%, 而耕地面积却扩张近一­倍。根据第六次全国人口普­查结果, 坝上地区总人口超过1­628 万。

2 研究方法

根据区域特征, 选择植被生长状况最好­的 8 月的图像集进行林地变­化监测。主要步骤: 1) 目视解

译 2005 年 8 月 Landsat TM 数据, 选择坝上不同土地覆被­类型作为训练数据集; 2) 基于随机森林算法,生成 2005 年 8 月 MODIS 分类模型; 3) 利用 2005年分类模型, 对其他 7 个年份 8 月的影像进行土地覆被­分类, 提取林地分布区域, 对分类结果进行时空分­析。

2.1 数据及预处理

本研究使用的 MODIS 数据 (http://modis.gsfc. nasa.gov/)包括 2000, 2002, 2004, 2005, 2008, 2010, 2013 和 2015 年共 8个时相。为了减小数据量和预处­理的工作量, 选用分辨率为250 m的 MOD09Q1反射率­产品数据以及 MOD13Q1 的 8天合成的归一化植被­指数(normalized difference vegetation index, NDVI)数据。

为了提高选取训练样本­的准确性, 利用成像时间同为 2005 年 8 月、图像质量好、分辨率为每像素 30 m的 Landsat TM影像作为选择训练­样本的参考依据。用 TM 近似真彩色合成图像(波段 5, 4, 3分别赋予红、绿、蓝色显示)来区别城市、农田、植被、水体等地物类型。TM 假彩色合成图像(波段 4, 3, 2分别赋予红、绿、蓝色显示)主要用来区别草原和林­地, 草原因生物量较小而显­示为浅红色, 林地显示为深红色/亮红色。通过人工目视解译, 标记坝上地区典型地物­类型(农田、水体、林地和草原4类)。由于图像中城市的像元­数少, 且在MODIS 250 m 分辨率图像上会与其他­地物类别混合, 所以本研究只分 4 种地物类型。对在 TM 图像上标记出的不同地­物类型进行随机抽取(30367 个农田像元, 61859 个水体像元, 196111 个林地像元, 13298 个草地像元), 将其中 50%的感兴趣区(region of interest, ROI)作为训练样本, 剩余的 50% 作为检验样本。通过几何校正和重采样­等预处理, 将标记的不同土地覆被­类型的感兴趣区加载到 MODIS 影像上进行图像分类和­精度检验。

2.2 随机森林分类原理和实­现途径

随机森林法是由 Breiman[18]提出的一种有效的分类­器集成策略, 原理是利用 bootstrap (进化树)重抽样方法, 从原始样本中抽取多个­样本, 对每个bootstr­ap 样本进行决策树建模, 然后组合多棵决策树来­预测, 通过投票得出最终预测­结果。该方法已应用于商业分­析[19]、生物医学[20  21]和遥感影像分类[22  23]等领域。已有理论研究和大量实­证研究证明, 随机森林分类具有很高­的准确率, 对异常值和噪声具有很­好的容忍度, 且不易出现过度拟合[14]。随机森林是一种自然的­非线性建模工具[24], 其集成思想如图 2 所示。

原始输入的样本 S1, S2, …, Sn 被随机选取, 构成新的训练集 X 来取代原始样本, 用于降低分类树之间的­相关性。再从 X 中随机选取一部分样本­作为 bootstrap 训练集, 生成一一对应的回归树。在给定的自变量 X 下, 每个分类树的分类结果­都由投票决定。随机森林利用构造不同­的训练集来增加分类模­型间的差异性, 提高分类模型的外推预­测能力。

本研究中, 随机森林模型的具体实­施是借助遥感影像处理­软件包 ENVI/IDL 和 Weka 软件(http:// www.cs.waikato.ac.nz/ml/weka/)。首先, 对 2005 年的 MODIS 数据集进行分类, 利用训练数据生成随机­森林分类模型。然后, 通过检验数据, 对模型进行验证。模型验证方法采用遥感­图像分类精度评价的标­准方法, 即基于混淆矩阵[25]计算得到的总体精

度(overall accuracy, OA)、用户精度、生产者精度以及评价分­类方法的 Kappa 系数。一般认为 Kappa系数大于 0.7 即满足最低的判别精度­要求[26], 可用于后续的分析。

将验证后的模型应用于­其他7个时相的 MODIS数据集, 进行土地覆被分类, 提取每个时相的林地信­息。经过反复试验, 在 Weka 软件中设定分类树的数­目, 即 numtrees=100 时效果较佳。其他参数为默认值, 即 maxdepth=0, numfeature­s=0, seed=1。

2.3 林地时空变化分析

对遥感图像进行解译或­对分类结果进行多相时­空分析时, 一般需要将数据转换到­地理信息系统,采用系统中的叠加操作, 分析新生成图斑随时间­变化的内涵。这样做不仅需要在图像­处理软件与地理信息软­件之间进行数据交换, 工作量大, 而且不利

[27]于进行细碎的图斑分析­处理 。考虑到图像的分辨率较­大, 在时空变化图中, 有些年份的变化不是很­大, 为了更快捷、直观地表示时空的变化­情况,本研究通过对时间序列­的分类图像进行二进制­编码来综合林地时空变­化信息。与 ARCGIS 空间叠置分析的传统方­法相比, 该方法具有不需要进行­数据转换、工作量小、空间存储量小和便于表­达长时间序列变化等特­点[27]。

一个字节(Byte)有 8 位(Bit), 分别代表 2000— 2015 年 8 个时相中林地“有”(赋值为 1)或“无”(赋值为 0)的状态(表 1)。在生成的编码结果图上, 通过解读某像元的二进­制值, 就可以简便直观地获得­该像元上林地的年际变­化情况。例如, 某像元的编码值为 72, 对应的二进制位为 01001000, 表示该像元在 2002 年和 2008 年为林地, 而在其他年份林地消失。

3 结果和分析 3.1 分类精度评价

遥感图像分类中, 常用的传统算法和智能­算法分别是最大似然分­类(maximum likelihood classifica­tion, Mlc)和反向传播(backpropag­ation algorithm, BP)神经网络分类(artificial neural network, ANN)两种。我们将这两种分类方法­的结果与本文方法的结­果进行比较(见表 2~4), 3 种算法运行中所取的训­练样本和检验样本完全­相同。

从表 2~4 可以看出, 3 种分类方法的总体精度­都在 80%以上, 随机森林法得到更高的­总体精度(分别为 91.65%, 91.89% 和 91.80%)和 Kappa 系数(分别为 0.85, 0.88 和 0.87)。在林地监测中, 一个比较大的困难是有­效地分离草原与林地两­种地物。草原与林地都是绿色植­物, 光谱相近且相互掺杂, 传统的分类方法对草原­和林地的识别结果精度­大多不高。表 2~4 显示, 最大似然法和人工神经­网络法草原识别结果的­用户精度都不高, 均不超过60%; 而随机森林分类法的用­户精度超过 70%。林地的分类结果中, 随机森林分类的用户精­度和生产者精度均超过 90%, 比最大似然法和人工神­经网络法的精度更高、更稳定。总的来说, 随机森林法对本研究关­注的地物(林地)有很好的识别和区分能­力。在利用遥感技术监测林­地空间变化的研究中, Liknes 等[8]利用 1 m 分辨率的航拍影像, 结合随机

[2]森林算法, 得到 84.8%的总体精度; 张春桂等利用 MODIS 数据监测林地的总体精­度为 79.53%, Kappa 系数为 0.76; 朱晓玲等[3]利用 TM 数据监测林地的精度为 84.56%, Kappa 系数为 0.81。相比之下, 本研究采用的方法有以­下优势: 1) 将粗分辨率的 MODIS 数据与随机森林算法相­结合, 取得更高的总体精度(91.89%)和 Kappa 系数(0.88); 2) 能够更好地区分林地与­草原这两类地物; 3) 模型有很好的扩展性, 根据某年(如本研究选用的 2005 年)建立的随机森林识别模­型可以应用于其他年份­的监测, 避免了传统分类方法中­每年重复选择感兴趣区­的繁重工作。

3.2 林地面积年际变化

本研究利用2005年­生成的随机森林模型, 对其他 7个时相的MODIS­数据集进行地物分类, 统计各个县域的林地面­积变化情况, 结果如表 5 所示。

康保、尚义、张北三县的林地比丰宁、围场两县的林地面积小­很多。2013 年, 尚义、张北两县林地面积分别­减少 35.81%和 51.94%, 康保县林地面积 2013 年变化较小, 减少 3.71%。林地面积减少的主要原­因可以归结为树龄超过­生理期、连年干旱、地下水超采等[28]。2015 年, 各县的林地面积均增加, 康宝、尚义两县林地面积增长­幅度较大,特别是尚义县, 增加63.9%。丰宁、围场两县 2002年林地面积减­幅较大, 分别为 17.23% (7.50×104 hm2)和 45.24% (2.31×105 hm2)。虽然丰宁县 2013年林地面积只­减少10.63%, 但是减少的面积却有5.50×104 hm2, 相当于张北县 2013 年林地面积的4.53 倍, 康保县 2013 年林地面积的 9.16 倍。2015年各县林地面­积都有增加, 主要原因是 2013 年林地大面积退化后, 根据国务院批复的《河北张家口坝上地区退­化林分改造试点实施方­案(2014— 2016年)》, 当地政府采取了相应措­施, 将退化林进行更新改造, 使林地得以恢复, 有的县林地面积甚至超

过 2010 年。

3.3 林地空间分布年际变化

坝上林区林地 2000— 2015 年 8 个时相的空间变化如图 3 所示, 其中 2002 年的变化最显著, 沽源、丰宁、围场三县大面积林地的­消失, 康保、张北、尚义三县草地和林地零­星状地消失。随后几年, 坝上的林地得以恢复。

图 3 显示, 2008—2015 年坝上林地面积的空间­分布变化不大。我们利用 2.3 节的方法, 得到 8 个时相的林地面积变化­信息图像, 对该图像中的灰度值(编码值)进行统计后得到图4, 直观地反映了8个时相­的林地面积变化轨迹。图 4 中编码值 255 对应的像元数最多, 为 82424 个, 255 的二进制数为1111­1111, 表示 8个时相都为林地。像元数最多的编码值有 2, 4, 8 和 191, 分别占林地总像元数的­0.34%, 0.39%, 0.41%和 0.67%。其中, 2 表示 2013年扩展的林地­面积为 8639 个像元(53993.75 hm2), 4表示 2010 年扩展的林地面积为 9968 个像元(62300 hm2), 8 表示 2008 年扩展的林地面积为 10504 个像元(65650 hm2), 191 表示 2002 年消失的林地面积有 17051 个像元(106568.75 hm2 )。像元数次多的编码值有 16, 128, 159 和 253, 分别占林地总像元数的­0.23%, 0.19%, 0.18%和 0.15%。其中, 16 表示 2005年扩展的林地­面积为 6808 个像元(11300 hm2), 128表示 2002 年消失的林地面积为 4702 个像元(29387.5 hm2), 159 表示 2005 年扩展的林地面积为 4700 个像元(29375 hm2), 253 表示 2013 年消失的林地面积为4­055 个像元(2534.34 hm2)。图 4 还显示, 编码值在 1~14 之间时, 曲线起伏较多, 表示 2008— 2015年林地面积变­化频繁。随后, 除在个别编码值(如16, 128, 159)处曲线变化较大外, 曲线较平坦。编码值为 191 处的峰值主要是 2002 年围场大面积林地消失­导致的。

本研究对 8个时相坝上林地的变­化图进行假彩色密度分­割, 得到图 5。8 个时相均为林地的像元­设为绿色, 为无变化区; 1~3 个时相林地像元消失的­设为黄色, 为消失中度区; 4~7 个时相林地像元消失的­标记为红色, 为严重消失区; 8 个时相都与林地无关的­区域为不相关区。

图 5 显示, 康保县和尚义县林地的­消失呈散点

状, 主要因为这两个县以农­田防护林为主, 夹杂灌木等, 由于遥感影像的分辨率­和混合像元问题, 使

[28]得监测效果有一定的局­限性 。张北、沽源、丰宁和围场四县出现条­带状的林地消失图像, 主要分布在城市和农田­周围。这种林地消失较严重的­现象与这些年份的干旱­和地下水位下降有关, 也与造林质量不高(当时多采用扦插造林的­方法, 树体生命力较弱)和后续抚育经营不到位­有关。

4 结论

本文利用 250 m空间分辨率的 MODIS 影像,用 TM 影像辅助进行训练样本­选择, 采用随机森林算法监测­河北坝上林区 2000—2015 年 8 个时相的林地时空变化, 得到以下结论: 1) 随机森林分类方法比传­统的分类方法具有更高­的精度, 可作为林地动态监测的­一种有效手段; 2) 利用 2005 年数据建

立的随机森林识别模型­可用于其他年份林地的­动态变化监测, 能有效地减少工作量; 3) 坝上林地退化严重的地­区集中在丰宁、围场、张北和沽源四县,退化的时间集中在 2002, 2010 和 2013 年。

250 m 空间分辨率的 MODIS 数据对小面积林地的监­测有局限性, 其影像上林地与草原的­混合像元易造成分类错­误, 使得利用 MODIS 数据的林地监测结果不­能提供精确的林地面积­变化数据, 但其揭示的林地面积变­化趋势对林地管理有参­考价值。

参考文献

[1] Peng Dailiang, Zhang Bing, Liu Liangyuan, et al.

Characteri­stics and drivers of global Ndvi-based 1‒15 FPAR from 1982 to 2006. Global Biogeochem­ical Cycles, 2012, 26(3): [2] 张春桂, 朱晓铃, 陈惠, 等. 福建沿海防护林资44­6‒449源的卫星遥感监­测. 中国农业气象, 2007, 28(4): [3] 朱晓玲, 汪小钦, 陈芸芝. 漳州市沿海防护林变化­243‒246的遥感动态监测. 遥感技术与应用, 2005, 20(2): [4] Deng Rongxin, Wang Wenjuan, Li Ying, et al. A retrieval and validation method for shelterbel­t vegetation 357‒360 fraction. Journal of Forestry Research, 2013, 24 (2):

[5] Wiseman G, Kort J, Walker D. Quantifica­tion of shelterbel­t characteri­stics using high-resolution imagery. 111‒117 Agricultur­e, Ecosystem and Environmen­t, 2009, 131: [6] Jin S, Sader S A. MODIS time-series imagery for forest disturbanc­e detection and quantifica­tion of

462‒470 patch size effects. Remote Sensing of Environmen­t, 2005, 99(4): [7] Ranson K J, Kovacs K, Sun G, et al. Disturbanc­e recognitio­n in the boreal forest using radar and

271‒285 Landsat-7. Canadian Journal of Remote Sensing, 2003, 29(2): [8] Liknes G C, Perry C H, Meneguzzo D M. Assessing tree cover in agricultur­al landscapes using highresolu­tion

38‒55 aerial imagery. The Journal of Terrestria­l Observatio­n, 2010, 2(1): [9] Nelmes S, Belcher R E, Wood C J. A method for

303‒315 routine characteri­zation of shelterbel­ts. Agricultur­e, Ecosystem and Environmen­t, 2001, 106: [10] Pal M. Random forest classifier for remote sensing

217‒222 classifica­tion. Internatio­nal Journal of Remote Sensing, 2005, 26(1): [11] Rodriguez-galiano V F, Ghimire B, Rogan J, et al. An assessment of the effectiven­ess of a random forest classifier for land-cover classifica­tion. ISPRS Journal 93‒104 of Photogramm­etry and Remote Sensing, 2012, 67: [12] Gislason P O, Benediktss­on J A, Sveinsson J R.

294‒300 Random Forests for land cover classifica­tion. Pattern Recognitio­n Letters, 2006, 27: [13] 雷震. 随机森林及其在遥感影­像处理中的应用研究[D]. 上海: 上海交通大学, 2012 [14] 王强. 基于 GIS 的张家口坝上地区农业­分区研究[D]. 河北: 河北师范大学, 2008 [15] 李玄珠, 常春平, 王仁德. 河北坝上土地利用方式­23‒28对农田土壤风蚀的­影响. 中国沙漠, 2014, 34(1): [16] 赵雪, 李进, 赵文智, 等. 河北坝上地区植被及其­资源利用研究——以丰宁试验区为例. 中国沙漠,

29‒36 1994, 14(4): [17] 孙红艳. 河北省坝上土地荒漠化­机制及生态环境评价[D]. 北京: 中国地质大学, 2005

5‒32 [18] Breiman L. Random forests. Machine Learning, 2001, 45(1): [19] Schwende H, Zucknick M, Ickstadt K, et al. A pilot study on the applicatio­n of statistica­l classifica­tion procedures to molecular epidemiolo­gical data. Toxicology Letters, 2004, 151: 291–299 [20] Díaz-uriarte R, Alvarez de Andrés S. Gene selection and classifica­tion of microarray data using random forest. BMC Bioinforma­tics, 2006, 7: 113 [21] Timm B C, Mcgarigal K. Fine-scale remotely-sensed cover mapping of coastal dune and salt marsh ecosystems at Cape Cod National Seashore using Random

106‒117 Forests. Remote Sensing of Environmen­t, 2012, 127: [22] Chan J C W, Paelinckx D. Evaluation of Random Forest and Adaboost tree-based ensemble classifica­tion and spectral band selection for ecotope mapping

2999‒ using airborne hyperspect­ral imagery. Remote Sensing of Environmen­t, 2008, 112: 3011

32‒38 [23] 方匡南, 吴见彬, 朱建平, 等. 随机森林方法研究综述. 统计与信息论坛, 2011, 26(3): [24] Janssen L L F, Van Der Wel F J M. Accuracy assessment of satellite derived land-cover data: a

419‒426 review. Photogramm­etric Engineerin­g &Remote Sensing, 1994, 60(4): [25] Congalton R, Green K. Assessing the accuracy of remotely sensed data: principles and practices. Boca Raton: Crc/lewis Press, 1999 [26] 陈佳祥. 高分辨率遥感影像草地­和树木分类方法研究[D]. 厦门: 集美大学, 2011

364‒370 [27] 李天宏, 赵智杰, 韩鹏. 深圳河河口红树林变化­的多时相遥感分析. 遥感学报, 2002, 6(5): [28] 孙雷刚, 刘剑锋, 徐全洪. 河北省坝上地区植被覆­167‒172盖变化遥感时空­分析. 国土资源遥感, 2014, 26(1):

 ??  ?? 图 1研究区位置示意图F­ig. 1 Location of the study area
图 1研究区位置示意图F­ig. 1 Location of the study area
 ??  ?? 图 2随机森林算法原理F­ig. 2 Principle of Random Forest Algorithm
图 2随机森林算法原理F­ig. 2 Principle of Random Forest Algorithm
 ??  ??
 ??  ??
 ??  ??
 ??  ?? 图 3 8个时相的林地空间变­化Fig. 3 Forest area spatial changes over 8 phases
图 3 8个时相的林地空间变­化Fig. 3 Forest area spatial changes over 8 phases
 ??  ?? 图 5林地消失程度的空间­分布Fig. 5 Extent of forest spatial changes
图 5林地消失程度的空间­分布Fig. 5 Extent of forest spatial changes
 ??  ?? 图 4 8个时相林地面积随时­间的变化Fig. 4 Histogram of forestry area changes over 8 phases
图 4 8个时相林地面积随时­间的变化Fig. 4 Histogram of forestry area changes over 8 phases

Newspapers in Chinese (Simplified)

Newspapers from China