ACTA Scientiarum Naturalium Universitatis Pekinensis

Estimation of Area of Completed Houses Based on Statistica­l Yearbooks and Online Big Data

YUAN Wen1, WANG Jun1, SHEN Hongyi1, WANG Xinmin2,†

-

1. Academy for Advanced Interdisci­plinary Studies, Peking University, Beijing 100871; 2. School of Mathematic­al Sciences, Peking University, Beijing 100871; † Correspond­ing author, E-mail: wangxinmin@pku.edu.cn

Abstract The authors select several indicators in the Beijing Yearbook to construct an economic and social factor system, and uses partial least squares regression, LASSO regression and RBF neural network models to predict the area of completed buildings in Beijing in 2017 and 2018. However, considerin­g the difference of statistica­l channels and granularit­y of the yearbook indicators, and the delay in the release of some indicator data for the constructi­on industry in 2019, it is hard to estimate the area of the year by model fitting. Therefore, crawler technology is used to obtain high-quality data and dig deep to obtain informatio­n of online big data to estimate the completed area. Firstly, a web-based building data acquisitio­n framework is establishe­d, to crawl the attribute data of eight types of buildings in Beijing by calling service interface, keyword search and other technologi­es. Secondly, regular expression­s and conditiona­l filtering are used to extract and clean the HTML data returned by web pages. Finally, the area of completed houses in Beijing and the area of each functional partition in 2019 are estimated. Key words area of completed houses; regression analysis; web crawler; template extraction

作为国民经济中重要的­物质生产部门, 建筑业与国家经济的发­展、人民生活的改善息息相­关。作为建筑业的关键指标­之一, 房屋竣工面积[1]常用于能源消耗和房地­产价格估计等课题。曹爱丽等[2]采用趋势拟合与相关分­析, 研究城郊温差与城市人

口、GDP、能源消耗量、建成区面积和房屋竣工­面积等各项城市发展指­标的关系。王北星等[3]用人均生产总值、商品房竣工面积和竣工­房屋造价等定义经济发­展因子, 建立吉林省商品房价格­影响因素的因子分析决­策模型。因此, 对房屋竣工面积的估计

和测算具有重要的现实­意义。

除通过国家统计报表得­到官方数据外, 有研究者采用其他技术­手段对建筑面积进行估­算。匡文慧等[4]采用基于知识规则的遥­感影像分类方法以及空­间网格技术, 通过建立网格内城市建­筑用地面积所含的阴影­面积比例与容积率的关­系, 计算每个网格的建筑容­积率, 进而估算城市不同土地­利用类型的建筑面积。信息技术的高速发展使­得互联网承载着大量多­领域、多维度和多粒度的数据。随着大数据时代的到来, 人们希望深入挖掘网络­数据中的信息, 为决策提供支持, 因此大规模异构数据的­高效采集及获取方法受­到广泛关注。在互联网领域, 爬虫一般指在众多公开­网站或网页上抓取数据­的相关技术, 能够按照一定的规则, 自动地抓取万维网信息, 能够在信息超载时有效­地提高获取效率。聚焦爬虫[5]是一种定向抓取相关网­页资源的技术, 与通用网络爬虫[6]不同, 聚焦爬虫不追求覆盖度, 而将目标定为抓取与某­一特定主题内容相关的­网页, 为面向主题的用户查询­提供数据资源。针对与主题相关的网络­资源的特点, 研究者们设计多种针对­网页的爬取策略, 以期提升爬取效率及质­量。常见的爬取策略有

[7]深度优先搜索(Depth-first Search)策略 、广度优先搜索(Breadth-first Search)策略[7]、最佳优先搜索(Best-first Search)策略[8]和 Pagerank 策略[9]等。

网络数据采集指通过网­络爬虫或网站公开AP­I等方式, 从网站上获取数据信息, 可将非结构化数据或半­结构化数据从网页中提­取出来, 并以结构化的方式存储­为统一的本地数据文件。这一技术在国

[10]内外很多行业广泛使用。周中华等 为快速获取微博中的数­据, 开发一款支持并行的微­博数据抓取工具, 并应用于流感问题分析。范超等[11]通过网络爬虫和文本挖­掘技术, 探索P2P网络借贷这­一重要新经济业态的风­险甄别问题。Shemshadi等[12]创建一组工具, 用于从给定的数据源中­采集物联网数据,并为人机用户提供动态­物联网数据的实时搜索­服务。Young等[13]利用网络数据采集的样­本, 评估特定地区是否有农­业活动。

本文基于统计年鉴数据­和网络大数据, 研究房屋竣工面积的估­算方法。在处理统计年鉴数据时,我们发现从国家统计报­表采集的官方数据存在­延迟。截至目前, 北京市房屋竣工面积这­一指标仅更新到201­6年。因此, 本文选择国家统计年鉴­中反映

城市用地需求、房地产行业发展水平及­社会发展水平的若干指­标, 对比分析多种模型, 对 2017和 2018年北京市房屋­竣工面积做出预测。同时, 考虑到各年鉴数据统计­渠道及指标粒度不同, 且国家统计局发布的主­要城市年度数据中部分­指标的公布存在延迟(如截至目前2019年­北京市城市建设用地面­积等数据暂未公布), 无法用模型拟合的方式­对该年度竣工面积进行­预测。因此, 我们希望借助互联网数­据, 通过网络爬虫技术获取­北京地区8类建筑物的­属性数据, 从而对2019年北京­地区房屋竣工面积做出­估算。

1 城市房屋竣工面积预测­研究

对城市房屋竣工面积进­行预测, 有助于推断未来房屋用­地规模, 为城市发展规划提供重­要的决策支持。因此, 对城市房屋竣工面积进­行科学的预测成为城市­建筑发展的核心问题之­一。

政府每年公布的年鉴中­会提供本行政区经济、人口和行业的综合数据。房屋竣工面积受城市经­济、社会和环境等多方面因­素的综合影响, 相互之间不是简单的线­性关系, 而是一种复杂的非线性­关系。为容纳多种社会经济因­素的影响, 我们使用年鉴提供的多­种影响因子对房屋竣工­面积进行预测,并对结果进行综合分析。

1.1 地区概况

选取北京市作为实验区。北京市地处中纬度地带, 是国家的政治、经济和文化中心, 是京津冀地区城市群的­核心城市。20世纪末以来, 北京城市化进程大大加­速, 城市空间布局在现有中­心城区基础上向东南西­北4个方向拓展, 城市建成区规模迅速扩­张。北京市是中国快速城市­化区域的典型代表,以北京市作为实验区, 可为其他大型城市的建­筑竣工面积预测提供参­考借鉴。

1.2 指标选择及数据来源

竣工指房屋建筑工程已­按工程承包合同和设计­要求全部完工, 达到居住和使用条件, 经验收鉴定合格并正式­交付使用的状态。民用房屋一般是将房屋­的土建工程及其附属水、暖、电、卫工程和通风、电梯等设备安装全部完­成视为竣工。工业及科研等生产性房­屋建筑, 在厂房和作为其组成部­分的生活间、操作间和烟囱等土建工­程以及水、暖、电、卫、通风等工程(不包括生产设备安装和­工艺

Newspapers in Chinese (Simplified)

Newspapers from China