ACTA Scientiarum Naturalium Universitatis Pekinensis
Estimation of Area of Completed Houses Based on Statistical Yearbooks and Online Big Data
YUAN Wen1, WANG Jun1, SHEN Hongyi1, WANG Xinmin2,†
1. Academy for Advanced Interdisciplinary Studies, Peking University, Beijing 100871; 2. School of Mathematical Sciences, Peking University, Beijing 100871; † Corresponding author, E-mail: wangxinmin@pku.edu.cn
Abstract The authors select several indicators in the Beijing Yearbook to construct an economic and social factor system, and uses partial least squares regression, LASSO regression and RBF neural network models to predict the area of completed buildings in Beijing in 2017 and 2018. However, considering the difference of statistical channels and granularity of the yearbook indicators, and the delay in the release of some indicator data for the construction industry in 2019, it is hard to estimate the area of the year by model fitting. Therefore, crawler technology is used to obtain high-quality data and dig deep to obtain information of online big data to estimate the completed area. Firstly, a web-based building data acquisition framework is established, to crawl the attribute data of eight types of buildings in Beijing by calling service interface, keyword search and other technologies. Secondly, regular expressions and conditional filtering are used to extract and clean the HTML data returned by web pages. Finally, the area of completed houses in Beijing and the area of each functional partition in 2019 are estimated. Key words area of completed houses; regression analysis; web crawler; template extraction
作为国民经济中重要的物质生产部门, 建筑业与国家经济的发展、人民生活的改善息息相关。作为建筑业的关键指标之一, 房屋竣工面积[1]常用于能源消耗和房地产价格估计等课题。曹爱丽等[2]采用趋势拟合与相关分析, 研究城郊温差与城市人
口、GDP、能源消耗量、建成区面积和房屋竣工面积等各项城市发展指标的关系。王北星等[3]用人均生产总值、商品房竣工面积和竣工房屋造价等定义经济发展因子, 建立吉林省商品房价格影响因素的因子分析决策模型。因此, 对房屋竣工面积的估计
和测算具有重要的现实意义。
除通过国家统计报表得到官方数据外, 有研究者采用其他技术手段对建筑面积进行估算。匡文慧等[4]采用基于知识规则的遥感影像分类方法以及空间网格技术, 通过建立网格内城市建筑用地面积所含的阴影面积比例与容积率的关系, 计算每个网格的建筑容积率, 进而估算城市不同土地利用类型的建筑面积。信息技术的高速发展使得互联网承载着大量多领域、多维度和多粒度的数据。随着大数据时代的到来, 人们希望深入挖掘网络数据中的信息, 为决策提供支持, 因此大规模异构数据的高效采集及获取方法受到广泛关注。在互联网领域, 爬虫一般指在众多公开网站或网页上抓取数据的相关技术, 能够按照一定的规则, 自动地抓取万维网信息, 能够在信息超载时有效地提高获取效率。聚焦爬虫[5]是一种定向抓取相关网页资源的技术, 与通用网络爬虫[6]不同, 聚焦爬虫不追求覆盖度, 而将目标定为抓取与某一特定主题内容相关的网页, 为面向主题的用户查询提供数据资源。针对与主题相关的网络资源的特点, 研究者们设计多种针对网页的爬取策略, 以期提升爬取效率及质量。常见的爬取策略有
[7]深度优先搜索(Depth-first Search)策略 、广度优先搜索(Breadth-first Search)策略[7]、最佳优先搜索(Best-first Search)策略[8]和 Pagerank 策略[9]等。
网络数据采集指通过网络爬虫或网站公开API等方式, 从网站上获取数据信息, 可将非结构化数据或半结构化数据从网页中提取出来, 并以结构化的方式存储为统一的本地数据文件。这一技术在国
[10]内外很多行业广泛使用。周中华等 为快速获取微博中的数据, 开发一款支持并行的微博数据抓取工具, 并应用于流感问题分析。范超等[11]通过网络爬虫和文本挖掘技术, 探索P2P网络借贷这一重要新经济业态的风险甄别问题。Shemshadi等[12]创建一组工具, 用于从给定的数据源中采集物联网数据,并为人机用户提供动态物联网数据的实时搜索服务。Young等[13]利用网络数据采集的样本, 评估特定地区是否有农业活动。
本文基于统计年鉴数据和网络大数据, 研究房屋竣工面积的估算方法。在处理统计年鉴数据时,我们发现从国家统计报表采集的官方数据存在延迟。截至目前, 北京市房屋竣工面积这一指标仅更新到2016年。因此, 本文选择国家统计年鉴中反映
城市用地需求、房地产行业发展水平及社会发展水平的若干指标, 对比分析多种模型, 对 2017和 2018年北京市房屋竣工面积做出预测。同时, 考虑到各年鉴数据统计渠道及指标粒度不同, 且国家统计局发布的主要城市年度数据中部分指标的公布存在延迟(如截至目前2019年北京市城市建设用地面积等数据暂未公布), 无法用模型拟合的方式对该年度竣工面积进行预测。因此, 我们希望借助互联网数据, 通过网络爬虫技术获取北京地区8类建筑物的属性数据, 从而对2019年北京地区房屋竣工面积做出估算。
1 城市房屋竣工面积预测研究
对城市房屋竣工面积进行预测, 有助于推断未来房屋用地规模, 为城市发展规划提供重要的决策支持。因此, 对城市房屋竣工面积进行科学的预测成为城市建筑发展的核心问题之一。
政府每年公布的年鉴中会提供本行政区经济、人口和行业的综合数据。房屋竣工面积受城市经济、社会和环境等多方面因素的综合影响, 相互之间不是简单的线性关系, 而是一种复杂的非线性关系。为容纳多种社会经济因素的影响, 我们使用年鉴提供的多种影响因子对房屋竣工面积进行预测,并对结果进行综合分析。
1.1 地区概况
选取北京市作为实验区。北京市地处中纬度地带, 是国家的政治、经济和文化中心, 是京津冀地区城市群的核心城市。20世纪末以来, 北京城市化进程大大加速, 城市空间布局在现有中心城区基础上向东南西北4个方向拓展, 城市建成区规模迅速扩张。北京市是中国快速城市化区域的典型代表,以北京市作为实验区, 可为其他大型城市的建筑竣工面积预测提供参考借鉴。
1.2 指标选择及数据来源
竣工指房屋建筑工程已按工程承包合同和设计要求全部完工, 达到居住和使用条件, 经验收鉴定合格并正式交付使用的状态。民用房屋一般是将房屋的土建工程及其附属水、暖、电、卫工程和通风、电梯等设备安装全部完成视为竣工。工业及科研等生产性房屋建筑, 在厂房和作为其组成部分的生活间、操作间和烟囱等土建工程以及水、暖、电、卫、通风等工程(不包括生产设备安装和工艺