基于论文文本大数据挖掘的评价因子取值方法探索——以历史文化村镇保护评价为例/ 黄翼,肖大威
——以历史文化村镇保护评价为例Exploration of the Evaluation Factor Selection Method based on Paper Text Big Data Mining: An Example of Historic Township Protection Evaluation
摘要 以历史文化村镇保护为案例,研究以论文文本大数据为数据源,采用文本挖掘技术和统计学原理进行评价因子取值的新方法。开放性的知网大数据可以为专家评价研究提供近似全数据样本和分析平台,可以提高主观评价的信度和效度。摸索出一套专家论文数据采集、清洗和去噪的方法,自主开发软件,以智能化的方式筛选出对评价因子研究有价值的专业词汇,并进行归类整理,得出历史文化村镇保护专家评价表及热点走势分析。
关键词 历史文化村镇保护;文本挖掘;大数据;评价因子;使用后评价
AbstrAct With historical and cultural village protection as the focus, this research takes big data from research texts as the data source and uses text mining technology and statistical principles as a new method for examining evaluation factors. Open big data from CNKI can approximate a full data sample and is an analysis platform for expert evaluation research; this can improve the reliability and validity of subjective evaluation. A set of methods for data collection, cleaning, and de-noising of expert papers is explored in this paper. The independently developed software is able to intelligently screen out professional vocabularies with research reference to evaluation factors . Afterwards, the vocabularies are concluded and summarized, so as to obtain an evaluation table of historic and cultural protection experts and a trend analysis of hot spots.
Key Words historical and cultural village protection; text mining; big data; evaluation factor; post-occupancy evaluation
*基金项目 国家自然科学基金资助项目(51508197):历史文化村镇保护规划实施后动态评价体系研究;华南理工大学亚热带建筑科学国家重点实验室开放基金资助项目(2017ZB12):基于新闻数据挖掘的历史文化村镇保护评价因子研究。
中图分类号 TU982.29文献标志码 A
DOI 10.3969/j.issn.1000-0232.2018.06.010 文章编号 1000-0232(2018)06-0010-05
作者简介 1 副教授,电子邮箱:dinahlayi@163.com;2 教授;1&2华南理工大学建筑学院、亚热带建筑科学国家重点实验室
随着互联网科技的发展,巨大容量和数量的数据为调查研究提供了充足的样本量,并为各种数据的相关信息挖掘提供了可能性,大数据思维作为一种时代范式,正在成为各行各业发展的突破性技术和手段。主观评价是建成环境使用后评价研究的一个重点,专家的观点在知识数据库中有较全面的体现。本文尝试以知识数据库为数据源,挖掘其大数据挖掘和应用方法,为评价因子分析提供新的思路。 1研究意义
1.1以历史文化村镇保护为案例研究论文文本大数据挖掘方法及其应用
知网、万方等知识数据库储存了几十年来行业专家的绝大部分期刊、会议、专利等成果,具有样本量大、数据完整、数据时间跨度长的特点。现在的知识数据库通常用于查询和下载成果资料,尚未有更深入的专业应用。哪些数据具有更深层次的价值,
可以用于解决什么问题,是大数据挖掘的难点。研发论文文本大数据挖掘方法和应用模式,开发相关软件,将开拓建成环境主观评价的新方法,且对文本数据挖掘的专业应用具有重要示范意义。1.2大数据分析方法可以提高主观评价的信度和效度
以往采集专家评价数据的方法为小样本数据分析方法,通常是先根据研究者自身经验总结评价因子,再通过问卷调查、德尔菲法收集各专家评分值[1-3],然后利用层次分析法整理数据,得出各评价因子权重。此种方法中评价因子根据专家个人经验和观点取得,每一位专家的观点都具有差异性,所以每一位专家给出的评价因子均有差异。也就是说,对评价因子取值传统方法的可靠性和准确性依赖于个别专家自身经验和专业水平,不具有统计学上的信度和效度意义。而采用大数据分析方法可以提高评价因子取值数据的客观性和科学性。已发表论文的研究方向和热点既可以代表专家的关注点,同时也反映杂志社评委和编辑的意见,是对专家关注方向的客观、全面记录,具有较高信度。大数据拥有的庞大样本量,较之小样本量,能够提高主观评价的效度。而研究热点出现的比率可以代表研究方向的重要性程度,用于提取评价因子权重。
2历史文化村镇保护评价因子研究现状
2.1历史文化村镇保护评价研究现状
国外关于遗产保护的研究主要开始于20世纪中后期,研究内容也相对集中在建筑遗产和历史城镇( 地区 )的保护政策、保护方法、保护规划及遗产评价研究等方面。还有的学者从保护与复兴的角度对历史城镇的自然环境、人工环境和社会经济环境进行分析评价 (Naciye Doratil,2004)。Freeman(1999)、Mazzanti(2002, 2003)、Bedate(2004) 分别从经济、文化价值、居民态度不同尺度探讨了遗产评价的方法 [4-7]。
2004 年 12月,建设部与国家文物局发布了《中国历史文化名镇名村评价指标体系(试行)》。该指标将评价因子分为三级,各因子的权重值体现在各项因子分值的大小。2012年住房与城乡建设部颁布的《传统村落评价认定指标体系(试行)》,从传统村落的建筑、选址格局、非物质文化遗产等3个方面进行了定性和定量的评价。这些指标是对历史文化村镇和传统村落的保护价值评价,在列入保护名单之后,对于其保护的优劣评价,尚未出台法规标准。2.2历史文化村镇保护评价因子研究现状
以往评价因子的取值通常基于大量现场调研,再根据各学者自身经验和逻辑思维,对原有评价体系进行修改,各体系的评价因子存在些许的差异[8-12]。如邵甬从多元综合的角度对国家现行评价体系进行网状优化[12],周铁军则从西南地方特色的角度对国家现行评价体系提出了调整[11]。这种从主观认知角度出发的评价因子取值方法,具有逻辑思辨上的可靠性,但从统计学的角度来说,缺乏针对行业专家群体观点的同异性分析。本文提出的大数据评价因子取值新方法,是采用专家论文文本挖掘技术,基于专家群体观点的统计学分析方法。 3知网大数据的采集和分析
3.1知网大数据特点及其分析方法
知网本身已有搜索引擎,可以根据标题、作者、关键词等方式进行搜索,搜索的结果也可以导出,与Note express 等软件共享,但缺陷是每次均要靠人工点选操作,对于数据分析来说,这种工作方式无疑是很费力的。而且,其分析功能仅限于对用户输入关键词的记忆和排序,并没有更深入的分析功能。用来分析和可视共被引网络的Java 应用程序 CiteSpace,可以分析科学知识的发展进程与结构关系,在知网导出标题等数据后,可以完成关键词分析和作者关系分析等科学知识谱系分析[13]。但还是基于人工操作的基础上,效率较低,数据的不完整会造成分析的误差,且并不能解决专业分析问题。
而对行业专家主观意见的分析,目标是找出专家的关注点,以及随着年份变化关注点的发展变化趋势。课题组摸索出一套数据采集和清洗的方法,自主开发软件,以自动运行的方式对知网论文数据进行全文搜索,可以得到近似全样本,且时间很短。再对数据进行中文分词、智能语义分析,实现数据自动采集、清洗和去噪,筛选出对评价因子研究有价值的专业词汇。
3.2专家论文数据采集和清洗方法
3.2.1知网数据搜索的关键词数量界定
中文具有多词近义或多词同义的特点,用一个关键词往往遗漏较多信息,例如“历史文化村镇”具有“传统村落、历史村镇、古村落、古村、古镇”等多个近义词,只是在保护价值上稍有区别。通过反复实验,发现2个关键词数据量较合适,也能较大程度减弱数据的遗漏。例如,在知网首页,键入“历史文化村镇保护、传统村落保护”两个关键词进行全文搜索(搜索截止日期为2018 年 1 月 8日),共下载约1.2万篇相关论文(网站数据显示相关文献数量共11万余篇,但只有11870篇能够被下载)。与“历史村镇、古村落、古村、古镇”等4个关键词相关的论文数量太多,且关联性较弱,故未采用其他关键词。
3.2.2 专业词汇挖掘和清洗
大数据通常信息繁杂,难以直接利用,需要经过分类、清洗,才能进行分析。现有文本挖掘通常采用的技术是TF-IDF加权法[14],以突出词汇在文本中的关键性。本实验参考此方法,在分词的基础上,对高频词汇的热度进行分析。与一般的文本挖掘热点分析不同的是,本实验拟通过论文文本数据得出评价因子分析的目的,故关注的重点在于词频分析得出的词汇是否是专业词汇。专业论文词汇的词频分析应该如何做,这是一个全新的研究,没有先例可以参考,整个研究是一个不断摸索的过程。
首次实验采用的方案是,对所有论文进行分词,去除连词、介词、代词等结构性词汇,再将其余词汇进行词频检索,按词汇出现频次高低排序,分析高频次词汇的词性规律。这是一般文本挖掘常用的方法,这样得出的高频词汇表中,很多日常用词居于排行前列,高频专业词汇数量太多且不集中,难以得出精炼的研
究热点,故放弃此实验方案。
怎样才能使得专业词汇从日常用词中分离出来,且这些专业词汇也是研究热点,能够转化为评价因子,这是解决问题的关键。经过对论文标题、摘要、关键词等多种数据源进行分词方案的实验,确定了以论文标题为数据源的方案。专业论文与一般网络评论文本相比,具有思维缜密、表达精炼的特点,标题是作者凝练的论文主题最精炼的阐述,能够代表论文的关注点,而论文标题经过分词汇总的高频专业词汇可以转化为评价因子。而论文作者对论题的筛选,以及期刊论文评审专家和编辑对论文选题的把关,均能一定程度地证明论题的重要程度,故其词频分析结果可以转化为评价因子权重。
实验方案是,对论文标题进行分词分析,且只保留名词词性的词汇。这次效度大大增加,虽然还是有一些常用词汇,但在词频占比列表中居于前列的通常是专业词汇。然后,通过专业论文日常用词语料库匹配排除法,将词频占比列表中的日常用词删除,得出专业词汇。最后,增加年份数据,在词频总表的基础上,根据不同年份列出词频分表,可以进一步得出时间轴线的关注点变化趋势。
4历史文化村镇保护评价表及热点走势分析
4.1历史文化村镇保护评价表
经过论文标题分词汇总后,得到的词频总表包括32523 个词 汇。将这些词汇加以整理,只保留词频频率超过1%的词汇81个,删除“文化、乡村、保护、村落、农村、历史、城镇、传统”等8个已知关键词,删除“研究、地区、城市、思考、对策、问题、模式”等日常用词37个(占比前10位日常用词见表1)。剩余36个专业词汇采用人工方式进行词义归类,如“环境、生态”归为“环境”一类,“规划、景观、空间、形态、聚落”归为“规划”一类。
通过专业词汇归类得出8个二级评价因子,又可归纳为“资源保护”与“活化利用”2个一级评价因子(表2)。定义 k 代表一级指标序号,i代表二级指标序号,p代表三级指标序号, j 代表原词序号,N代表词频,T代表权重值。用 Nj 表示原词 j出现的词频占总论文总数的比例,将各二级指标所属原词进行加和得到二级指标词频Ni(公式 1),将 Ni 进行加和,再归一化处理,得出各评价因子的权重值Ti(公式 2)。一级指标权重Tk通过所属二级指标权重 Ti 加和求出(公式3)。三级指标根据原词进行专业化词义归类得出,其权重Np赋值方法同二级权重 Ni(公式 4)。
2个一级指标“资源保护”与“活化利用”的比重是四六开,说明专家们认为保护与利用并重,且利用村镇历史文化资源,注入新的活力比单纯的保护具有更重要的意义。历史文化资源与具体生活场景的融合,才能使场所焕发新生。保护是为了利用,利用是为了发展。笔者在村镇调研走访过程中,也曾见到修缮一新的传统建筑大量空置的现象,村民不愿意搬入其中居住生活,这种现象是保护做得很好,而缺乏活化利用,造成了人力物力的浪费。保护与利用相得益彰的案例也有许多,有的村镇将老祠堂修缮后,用作村民平时各种公共活动的场所,传统建筑和现代生活浑然一体。
8个二级指标中“发展”占最大比重,“经济”次之,说明专家认为历史文化村镇应在保护中发展,而且经济发展是历史文化村镇重要内容。2018 年 9月中共中央、国务院印发了《乡村振兴战略规划(2018 - 2022 年)》中把精准脱贫列为一个章节,也反应了经济在乡村振兴战略中的重要性。经济发展与历史文化保护并不矛盾,而应是相辅相成的。有了好的经济基础,就能投入更多的资金用于保护。保护好了历史遗产,也为未来发展提供了深厚的文化资本。然而,建立村民的历史文化保护意识也是一个关键措施。现在较普遍的状况是,经济条件越差的村落,传统建筑保存越好,经济发展好的村落,由于缺乏保护意识,拆了旧房盖新房,传统风貌损失较大。当然,如今也不乏经济发展和保护相互促进的成功案例。例如,中山市沙溪镇圣狮村重视保护和利用兼顾,村集体经济发展也较好。旧村域中保护了老建筑、环境设施,活化了非物质文化遗产,在新村建设工业生产基地,“新”有新的欣荣,“旧”有旧的生气,新与旧在村镇生活中相得益彰,形成了具有历史气息的新农村风貌。
4.2历史文化村镇保护专家评价热点走势分析
对不同年份的历史文化村镇保护评价关注点原词加以分列,取前十位词汇分析其走势变化,得出总体前十位热点百分比柱状图(图1)和总体前十位热点年份走势分析图(图2)。
“旅游、建设、发展”3个词汇的占比较之其他高出许多,且近 3年呈现逐年大幅增长的趋势,说明历史文化村镇的建设和经济发展受到专家的关注的程度越来越高。较之“资源保护”, “活化利用”在历史文化村镇保护工作中占比越来越大。“旅游”一词热度居于首位,说明旅游成为历史文化村镇近年来发展的一 个重要方向。
“生态、规划、民族、空间、景观”5个词汇属于资源保护的内容,也占有很到的比重,近3年热度增长相对平稳。近年来国家住建部调拨了大量资金用于加强历史文化村镇保护工作,资源保护工作已经得到了广泛重视,并已经对大面积的文物古迹和传统建筑进行了保护和修缮,并出台了相应保护措施。
资源保护是活化利用的根本前提和基础,活化利用是资源保护的目的和方向。以上数据表明,历史文化村镇保护随着时间发展和保护阶段的不断演进,在不同发展阶段会产生不同的问题,保护的重点也会稍有偏向和转移。
4.3大数据分析方法得出的评价体系与传统方法成果的比较
本文评价体系的因子及其权重取值是通过专业词汇词频占比计算得出,专业词汇词频的高低影响到指标的权重值,数据具有一定的客观性。这种方法得出的数据较客观,能够验证以往评价因子取值的正确性,同时,也能发现一些随着时间发展热度逐渐提升的评价因子。
现行国家评价体系中的评价因子在本文专业词汇表中均有体现,只是词频数值相差较大。如“建筑”一词占比3.76%,“街巷”一词占比 0.05%,“空间”一词占比 4.44%。周铁军提出的对国家现行评价体系的调整为,增加了聚落与环境的结合度、传统院落空间、文物古迹和历史建筑保存度、居住建筑保存状况、建筑技艺和艺术价值等5个三级指标。本文数据分析得出的原词中“聚落、环境、建筑、民居、艺术、特色、传承”几个词汇可以对应周铁军调整的评价对象,但“保存度、真实度、完整度”这样的度量标准,还是需要通过主观认知进行取值。邵甬提出的网状评价结构,将特征价值和真实完整性评价分立,增加了预警评价,这种网状结构的逻辑思路,也是词频数据不能直接反映的。
但是,数据原词中也有一些在以前的评价体系中尚未出现的词汇,如“开发、发展、创新、改革、建设”等代表“发展”的词汇,“管理、治理、社会、社区、文明”等代表“社会”的词汇,“旅游、经济、农业、产业”等代表“经济”的词汇。这些原词表明,还有很多专家关注历史文化村镇保护之后的发展,而不仅仅是保护本身,活化利用也是保护框架下的一个重要内容,故本文将“活化利用”列为一级指标,而现行国家评价体系中二级指标“物质遗产”和“非物质文化遗产”都有保护和活化的问题。
现行国家评价体系中一级指标还有“保护措施”一项,用以评价保护措施的合理性、完善性和执行力度。由于本文词频分析中出现的与保护管理相关的“管理、治理”二词占比较低,故没有将“保护措施”作为一级指标,而是在三级指标中出现。
结论与讨论
本文摸索了一种专业论文文本大数据的挖掘方法,采用双关键词搜索,以论文标题为源数据,经过分词、词频排序、专业论文中日常用词语料库匹配排除,得出有效专业词汇列表。再通过人工方法对专业词汇归类,归纳出各级评价因子。并对词频频率值进行统计计算,得出各评价因子权重,进而得到完整的评价体系表。
提出了一种以专业论文文本大数据为数据源的评价因子取值新方法,这种方法使得评价因子研究的信度和效度得到提高。对专家论文进行客观数据分析的方法,降低了以往评价因子取值的个人主观性。为主观评价提供客观数据参考,可以提高评价因子取值方法的客观性和科学性,也符合时代发展需要具有的高效性特点。所以,这种方法是对传统评价因子取值方法的重要补充。
采用论文文本大数据分析得出的词频数据,对历史文化村镇保护专家评价的不同级别评价因子进行权重计算,其样本量巨大,具有较高真实性和准确性,代表行业专家群体观点,能够弥补传统方法数据样本量较小和取样随机性不足的缺陷,可以为传统评价因子取值方法提供数据参考。将专业词汇词频数据转化为评价因子权重,具有统计学意义。
专业词汇词频数据还可以进行深入挖掘应用。例如,对多年的历史文化村镇保护评价研究热点词频进行交叉分析,得到分年度的研究发展状况走势分析图,可以迅速呈现行业研究热点动向,为研究人员进一步解读和分析提供客观依据。
基于专家论文文本大数据挖掘的评价因子分析方法,将专家主观观点进行客观数据分析,提高了数据的客观性和智能化处理。然而,对于原词的总结归类,尚需要专业人员根据自身认识进行划分,仍然存在主观判断的成分。但较之以往的小样本数据分析方法,已经前进了一步,主观性大大降低,且有客观数据作为判断依据。由于中文的词汇具有一词多义的特点,同一个词汇可以有多种不同理解,要根据不同语境来判断其准确含义。专业词汇归类还是采用人工的方式,尚未实现智能化,今后进一步的研究,可对原词进行词义上下文语境划分,争取做到自动归类。要达到这些目标,尚待人工智能深度学习技术的发展。
随着时间的进展,每年的研究热点有些许变化。增加了时间轴,则发现历史文化村镇保护评价体系是在不断有细微更新的,也体现出时代的发展和进化会对历史文化村镇保护热点产生影响。专家论文数据库是在不断更新的,保护评价因子数据源处于动态变化之中,具有动态性。这种动态性显示历史文化村镇保护的理 念和工作重心也应随着时代发展不断更新,应及时把握村镇实际状况、政策走向、舆情热点,综合各方面因素加以灵活应对。
为本课题自主开发的软件还能够分析长期从事该领域研究的专家之贡献度、各类期刊对该领域的关注度,这些数据可以帮助科研人员迅速了解和掌握行业研究现状,具有高效性。如今,知识数据库还有很多数据不能被批量下载,故还有很多数据分析设想尚未实现。大数据分析方法的应用依赖数据来源的开放性,在2017 年 12 月 8日习近平主席提出“实施国家大数据战略加快建设数字中国”重要方针之后,整个社会数据平台的对接应会更加顺畅,进而能为科研工作的数据化提供更加丰富的土壤。
致谢:感谢吴硕贤老师为论文提出宝贵意见!
图、表来源
文中图、表均由作者绘制。
参考文献
[1] 朱小雷.建成环境主观评价方法[M]. 南京:东南大学出版社,2005. [2] 卢淑华.社会统计学(第 四 版)[M].北京:北京大学出版社, 2009.
[3] 朱小雷.广州典型保障房居住空间环境质量使用后评价及评价指标敏感性探索 [J].西部人居环境学刊 ,2017,32(3):23-29.
[4]F S.Conservation and Rehabilitation of Urban Heritage in Developing Countries[J].Habitat International,1996, 20(3):463475.
[5]Bedate A,H L,S J.Economic valuation of the cultural heritage:application to four case studies in Spain[J]. Journal of Cultural Heritage,2004(5):101-111.
[6]Yeoh B A,H S.The conservation-redevelopment dilemma in Singapore[J].Cities,1996,13(6):411-422.
[7]Sutton K,W F.The rehabilitation of Old Cairo[J]. Habitat International,2002,26(1):73-93.
[8] 刘渌璐.广府地区传统村落保护规划编制及其实施研究[D]. 广州:华南理工大学,2014.
[9] 任栋 .历史文化村镇保护规划评估研究[D].广州:华南理工大学, 2012.
[10] 张艳玲,肖大威.历史文化村镇主观评价体系[J]. 华中建筑,2013 (12):144-147.
[11]周铁军,黄一滔,王雪松.西南地区历史文化村镇保护评价体系研究[J]. 城市规划学刊,2011(6):109-116.
[12] 邵甬,付娟娟.以价值为基础的历史文化村镇综合评价研究[J]. 城市规划,2012(2):82-88.
[13]Chen C.CiteSpace II:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J]. Journal of the American Society for Information Science and Technology,2006,57(3):359-377.
[14] 马越.基于文本挖掘技术的建成环境使用后评价研究[J]. 南方建筑, 2018(2):96-101.