基于决策树的住房租赁价格微观影响因素研究— ——以北京市为例
— ——以北京市为例范雅静,黄 笛530003) (广西财经学院信息与统计学院,广西 南宁
[摘要]随着我国经济水平飞速增长,城市间人口流动日益频繁,房屋租赁市场日趋繁荣,房屋的租金也受到越来越多的关注。而由于互联网的发展,房东与租户通常会在网络上发布并获取信息,因此租房网站中包含丰富的租房信息。文章6利用网络爬虫技术从租房网站收集了北京市各区域共计三千余条租房信息,并将住房租赁价格作为被解释变量,并选择 个微观因素作为解释变量,基于特征价格理论建立决策树模型,分析影响租房价格的关键因素,并为住房租赁价格定价及预测提供新的思路。[关键词]住房租赁价格;微观影响因素;决策树DOI 10 13939/ j cnki zgsc 2017 17 037 [ ]
1 引 言
作为房地产市场体系两个必不可少的重要组成部分,租赁市场与买卖市场,与北京市房地产市场的健康平稳运行有着密切的关系。持续提高的城镇化水平意味着将有相当数量的农村剩余劳动力及人口转移到城市。北京地区的高房价客观上也使购买商品房需要大量的资金。因此,越来越多的人选择暂时放弃购房需求,并将目光由买卖市场转向租赁市场,借助租赁市场将自身的住房需求解决。在此背景下,住房租赁价格由哪些因素确定成为了学者关注的问题。
Marks( 1984)目前,已有大量学者对此进行了研究。用特征价格指数对温哥华租赁住宅数据进行研究,结果发现停车位提供、自动洗衣店等相关变量均显著影响住宅租金。Guntermannn( 1987)
的研究表明,游泳池、健身房的存在对租金有着显著影响。此外,许多学者将研究重心放在配套
George( 1985) Sirmans( 1990)设施对住宅的影响。 、 等则对住房内的配套设施,如电视、洗衣机等对租金有正方向的影响作用。然而,住宅由于其私密性等问题,传统的入户调查方法成本较高且难以获得较大数据。从国内文献看,学者大多集中在微观因素对写字楼等商用房屋租赁价格影响的研
2009)究。聂冲 (研究发现区位、建筑、商铺和租约特征都是购物中心商铺租金的重要决定因素,但相对而言,区位
2011)特征最为重要。梁艳 ( 选取深圳市场上能获得数据
20的四类个解释变量进入租金模型。采用特征模型,对深
114圳市栋写字楼的要价租金均价进行回归分析,并发现大
2013)部分特征因素对写字楼租金有显著影响。全百松 (通过构建写字楼特征价格模型,发现不同城市发展水平下的写字楼租金影响因素在显著性及影响系数两方而表现不同。
然而,由于住宅私密性等问题,传统的入户调查方法成本较高且难以获得较大数据,若要避免入户问题则只能对写字楼等开放区域进行调查。为弥补此缺陷,本文通过网络爬虫技术获取到北京市住房租赁价格相关数据,可以在较短时间内获得丰富的租房微观数据。此外,本文通过建立决策树模型对北京市住房租赁价格进行分析,可利用决策树的优势对住房租赁价格的微观影响因素进行深入分析,从而使各类 租房人群能结合自身对房屋的需求,借助模型估算参考价格,同时对当地房地产中介机构合理评估住房租赁价格有一定的参考借鉴意义。 2理论基础2 1特征价格模型理论Atcourt( 1939)特征价格模型来源于特征价格理论。首次对汽车价格进行了研究,认为汽车价格是由汽车本身特Lancaster( 1966)征决定,并构建了汽车价格指数。随后,提出消费者偏好理论,认为消费者购买一个产品,是由于产Rosen( 1974) Lan 品的特征符合消费者的需求。 则完善了caster偏好理论,理论上构建了特征价格供需特征模型,为特征价格模型奠定了基础。该理论认为,住房价格是由住房特征带给人们的效用决定的,由于住宅特征的数量及组合方式不同,使得房地产的价格存在差异。因此,本文根据特征价格理论对住宅租赁价格的影响因素分解,分析各因素对房租的影响。2 2决策树理论本文主要采用决策树方法进行建模。决策树是一种监督式的学习方法,产生一种类似流程图的树结构。决策树对数据进行处理是利用归纳算法产生分类规则和决策树,再对新leaf数据进行预测分析。树的终端节点— ——叶节点 ( nodes), class),表示分类结果的类别 ( 每个内部节点表示branch)一个变量的测试,分枝 ( 为测试输出,代表变量的一个可能数值。为达到分类目的,变量值在数据上测试,每一条路径代表一个分类规则。在树的每个节点上,使用信息增益选择测试的变量,信息增益是用来衡量给定变量区分训练样本的能力,选择最高entropy)信息增益或最大熵 ( 简化的变量,将之视为当前节点的分割变量,该变量促使需要分类的样本信息量最小, impurity) Han Kam 而且反映了最小随机性或不纯性 ( ( 和ber, 2001) p,。若某一事件发生的概率是 令此事件发生后I( p), p= 1, I( p) = 0,所得的信息量为 若 则 因为某一事件一定会发生,因此该事件发生不能提供任何信息。反之,如果某一事件发生的概率愈小,不确定性愈大,则该事