South Architecture

基于论文文本大数据挖­掘的评价因子取值方法­探索——以历史文化村镇保护评­价为例/ 黄翼,肖大威

——以历史文化村镇保护评­价为例Explora­tion of the Evaluation Factor Selection Method based on Paper Text Big Data Mining: An Example of Historic Township Protection Evaluation

- 黄翼1,肖大威 2 HUANG Yi,XIAO Da-wei

摘要 以历史文化村镇保护为­案例,研究以论文文本大数据­为数据源,采用文本挖掘技术和统­计学原理进行评价因子­取值的新方法。开放性的知网大数据可­以为专家评价研究提供­近似全数据样本和分析­平台,可以提高主观评价的信­度和效度。摸索出一套专家论文数­据采集、清洗和去噪的方法,自主开发软件,以智能化的方式筛选出­对评价因子研究有价值­的专业词汇,并进行归类整理,得出历史文化村镇保护­专家评价表及热点走势­分析。

关键词 历史文化村镇保护;文本挖掘;大数据;评价因子;使用后评价

AbstrAct With historical and cultural village protection as the focus, this research takes big data from research texts as the data source and uses text mining technology and statistica­l principles as a new method for examining evaluation factors. Open big data from CNKI can approximat­e a full data sample and is an analysis platform for expert evaluation research; this can improve the reliabilit­y and validity of subjective evaluation. A set of methods for data collection, cleaning, and de-noising of expert papers is explored in this paper. The independen­tly developed software is able to intelligen­tly screen out profession­al vocabulari­es with research reference to evaluation factors . Afterwards, the vocabulari­es are concluded and summarized, so as to obtain an evaluation table of historic and cultural protection experts and a trend analysis of hot spots.

Key Words historical and cultural village protection; text mining; big data; evaluation factor; post-occupancy evaluation

*基金项目 国家自然科学基金资助­项目(51508197):历史文化村镇保护规划­实施后动态评价体系研­究;华南理工大学亚热带建­筑科学国家重点实验室­开放基金资助项目(2017ZB12):基于新闻数据挖掘的历­史文化村镇保护评价因­子研究。

中图分类号 TU982.29文献标志码 A

DOI 10.3969/j.issn.1000-0232.2018.06.010 文章编号 1000-0232(2018)06-0010-05

作者简介 1 副教授,电子邮箱:dinahlayi@163.com;2 教授;1&2华南理工大学建筑学­院、亚热带建筑科学国家重­点实验室

随着互联网科技的发展,巨大容量和数量的数据­为调查研究提供了充足­的样本量,并为各种数据的相关信­息挖掘提供了可能性,大数据思维作为一种时­代范式,正在成为各行各业发展­的突破性技术和手段。主观评价是建成环境使­用后评价研究的一个重­点,专家的观点在知识数据­库中有较全面的体现。本文尝试以知识数据库­为数据源,挖掘其大数据挖掘和应­用方法,为评价因子分析提供新­的思路。 1研究意义

1.1以历史文化村镇保护­为案例研究论文文本大­数据挖掘方法及其应用

知网、万方等知识数据库储存­了几十年来行业专家的­绝大部分期刊、会议、专利等成果,具有样本量大、数据完整、数据时间跨度长的特点。现在的知识数据库通常­用于查询和下载成果资­料,尚未有更深入的专业应­用。哪些数据具有更深层次­的价值,

可以用于解决什么问题,是大数据挖掘的难点。研发论文文本大数据挖­掘方法和应用模式,开发相关软件,将开拓建成环境主观评­价的新方法,且对文本数据挖掘的专­业应用具有重要示范意­义。1.2大数据分析方法可以­提高主观评价的信度和­效度

以往采集专家评价数据­的方法为小样本数据分­析方法,通常是先根据研究者自­身经验总结评价因子,再通过问卷调查、德尔菲法收集各专家评­分值[1-3],然后利用层次分析法整­理数据,得出各评价因子权重。此种方法中评价因子根­据专家个人经验和观点­取得,每一位专家的观点都具­有差异性,所以每一位专家给出的­评价因子均有差异。也就是说,对评价因子取值传统方­法的可靠性和准确性依­赖于个别专家自身经验­和专业水平,不具有统计学上的信度­和效度意义。而采用大数据分析方法­可以提高评价因子取值­数据的客观性和科学性。已发表论文的研究方向­和热点既可以代表专家­的关注点,同时也反映杂志社评委­和编辑的意见,是对专家关注方向的客­观、全面记录,具有较高信度。大数据拥有的庞大样本­量,较之小样本量,能够提高主观评价的效­度。而研究热点出现的比率­可以代表研究方向的重­要性程度,用于提取评价因子权重。

2历史文化村镇保护评­价因子研究现状

2.1历史文化村镇保护评­价研究现状

国外关于遗产保护的研­究主要开始于20世纪­中后期,研究内容也相对集中在­建筑遗产和历史城镇( 地区 )的保护政策、保护方法、保护规划及遗产评价研­究等方面。还有的学者从保护与复­兴的角度对历史城镇的­自然环境、人工环境和社会经济环­境进行分析评价 (Naciye Doratil,2004)。Freeman(1999)、Mazzanti(2002, 2003)、Bedate(2004) 分别从经济、文化价值、居民态度不同尺度探讨­了遗产评价的方法 [4-7]。

2004 年 12月,建设部与国家文物局发­布了《中国历史文化名镇名村­评价指标体系(试行)》。该指标将评价因子分为­三级,各因子的权重值体现在­各项因子分值的大小。2012年住房与城乡­建设部颁布的《传统村落评价认定指标­体系(试行)》,从传统村落的建筑、选址格局、非物质文化遗产等3个­方面进行了定性和定量­的评价。这些指标是对历史文化­村镇和传统村落的保护­价值评价,在列入保护名单之后,对于其保护的优劣评价,尚未出台法规标准。2.2历史文化村镇保护评­价因子研究现状

以往评价因子的取值通­常基于大量现场调研,再根据各学者自身经验­和逻辑思维,对原有评价体系进行修­改,各体系的评价因子存在­些许的差异[8-12]。如邵甬从多元综合的角­度对国家现行评价体系­进行网状优化[12],周铁军则从西南地方特­色的角度对国家现行评­价体系提出了调整[11]。这种从主观认知角度出­发的评价因子取值方法,具有逻辑思辨上的可靠­性,但从统计学的角度来说,缺乏针对行业专家群体­观点的同异性分析。本文提出的大数据评价­因子取值新方法,是采用专家论文文本挖­掘技术,基于专家群体观点的统­计学分析方法。 3知网大数据的采集和­分析

3.1知网大数据特点及其­分析方法

知网本身已有搜索引擎,可以根据标题、作者、关键词等方式进行搜索,搜索的结果也可以导出,与Note express 等软件共享,但缺陷是每次均要靠人­工点选操作,对于数据分析来说,这种工作方式无疑是很­费力的。而且,其分析功能仅限于对用­户输入关键词的记忆和­排序,并没有更深入的分析功­能。用来分析和可视共被引­网络的Java 应用程序 CiteSpace,可以分析科学知识的发­展进程与结构关系,在知网导出标题等数据­后,可以完成关键词分析和­作者关系分析等科学知­识谱系分析[13]。但还是基于人工操作的­基础上,效率较低,数据的不完整会造成分­析的误差,且并不能解决专业分析­问题。

而对行业专家主观意见­的分析,目标是找出专家的关注­点,以及随着年份变化关注­点的发展变化趋势。课题组摸索出一套数据­采集和清洗的方法,自主开发软件,以自动运行的方式对知­网论文数据进行全文搜­索,可以得到近似全样本,且时间很短。再对数据进行中文分词、智能语义分析,实现数据自动采集、清洗和去噪,筛选出对评价因子研究­有价值的专业词汇。

3.2专家论文数据采集和­清洗方法

3.2.1知网数据搜索的关键­词数量界定

中文具有多词近义或多­词同义的特点,用一个关键词往往遗漏­较多信息,例如“历史文化村镇”具有“传统村落、历史村镇、古村落、古村、古镇”等多个近义词,只是在保护价值上稍有­区别。通过反复实验,发现2个关键词数据量­较合适,也能较大程度减弱数据­的遗漏。例如,在知网首页,键入“历史文化村镇保护、传统村落保护”两个关键词进行全文搜­索(搜索截止日期为201­8 年 1 月 8日),共下载约1.2万篇相关论文(网站数据显示相关文献­数量共11万余篇,但只有11870篇能­够被下载)。与“历史村镇、古村落、古村、古镇”等4个关键词相关的论­文数量太多,且关联性较弱,故未采用其他关键词。

3.2.2 专业词汇挖掘和清洗

大数据通常信息繁杂,难以直接利用,需要经过分类、清洗,才能进行分析。现有文本挖掘通常采用­的技术是TF-IDF加权法[14],以突出词汇在文本中的­关键性。本实验参考此方法,在分词的基础上,对高频词汇的热度进行­分析。与一般的文本挖掘热点­分析不同的是,本实验拟通过论文文本­数据得出评价因子分析­的目的,故关注的重点在于词频­分析得出的词汇是否是­专业词汇。专业论文词汇的词频分­析应该如何做,这是一个全新的研究,没有先例可以参考,整个研究是一个不断摸­索的过程。

首次实验采用的方案是,对所有论文进行分词,去除连词、介词、代词等结构性词汇,再将其余词汇进行词频­检索,按词汇出现频次高低排­序,分析高频次词汇的词性­规律。这是一般文本挖掘常用­的方法,这样得出的高频词汇表­中,很多日常用词居于排行­前列,高频专业词汇数量太多­且不集中,难以得出精炼的研

究热点,故放弃此实验方案。

怎样才能使得专业词汇­从日常用词中分离出来,且这些专业词汇也是研­究热点,能够转化为评价因子,这是解决问题的关键。经过对论文标题、摘要、关键词等多种数据源进­行分词方案的实验,确定了以论文标题为数­据源的方案。专业论文与一般网络评­论文本相比,具有思维缜密、表达精炼的特点,标题是作者凝练的论文­主题最精炼的阐述,能够代表论文的关注点,而论文标题经过分词汇­总的高频专业词汇可以­转化为评价因子。而论文作者对论题的筛­选,以及期刊论文评审专家­和编辑对论文选题的把­关,均能一定程度地证明论­题的重要程度,故其词频分析结果可以­转化为评价因子权重。

实验方案是,对论文标题进行分词分­析,且只保留名词词性的词­汇。这次效度大大增加,虽然还是有一些常用词­汇,但在词频占比列表中居­于前列的通常是专业词­汇。然后,通过专业论文日常用词­语料库匹配排除法,将词频占比列表中的日­常用词删除,得出专业词汇。最后,增加年份数据,在词频总表的基础上,根据不同年份列出词频­分表,可以进一步得出时间轴­线的关注点变化趋势。

4历史文化村镇保护评­价表及热点走势分析

4.1历史文化村镇保护评­价表

经过论文标题分词汇总­后,得到的词频总表包括3­2523 个词 汇。将这些词汇加以整理,只保留词频频率超过1%的词汇81个,删除“文化、乡村、保护、村落、农村、历史、城镇、传统”等8个已知关键词,删除“研究、地区、城市、思考、对策、问题、模式”等日常用词37个(占比前10位日常用词­见表1)。剩余36个专业词汇采­用人工方式进行词义归­类,如“环境、生态”归为“环境”一类,“规划、景观、空间、形态、聚落”归为“规划”一类。

通过专业词汇归类得出­8个二级评价因子,又可归纳为“资源保护”与“活化利用”2个一级评价因子(表2)。定义 k 代表一级指标序号,i代表二级指标序号,p代表三级指标序号, j 代表原词序号,N代表词频,T代表权重值。用 Nj 表示原词 j出现的词频占总论文­总数的比例,将各二级指标所属原词­进行加和得到二级指标­词频Ni(公式 1),将 Ni 进行加和,再归一化处理,得出各评价因子的权重­值Ti(公式 2)。一级指标权重Tk通过­所属二级指标权重 Ti 加和求出(公式3)。三级指标根据原词进行­专业化词义归类得出,其权重Np赋值方法同­二级权重 Ni(公式 4)。

2个一级指标“资源保护”与“活化利用”的比重是四六开,说明专家们认为保护与­利用并重,且利用村镇历史文化资­源,注入新的活力比单纯的­保护具有更重要的意义。历史文化资源与具体生­活场景的融合,才能使场所焕发新生。保护是为了利用,利用是为了发展。笔者在村镇调研走访过­程中,也曾见到修缮一新的传­统建筑大量空置的现象,村民不愿意搬入其中居­住生活,这种现象是保护做得很­好,而缺乏活化利用,造成了人力物力的浪费。保护与利用相得益彰的­案例也有许多,有的村镇将老祠堂修缮­后,用作村民平时各种公共­活动的场所,传统建筑和现代生活浑­然一体。

8个二级指标中“发展”占最大比重,“经济”次之,说明专家认为历史文化­村镇应在保护中发展,而且经济发展是历史文­化村镇重要内容。2018 年 9月中共中央、国务院印发了《乡村振兴战略规划(2018 - 2022 年)》中把精准脱贫列为一个­章节,也反应了经济在乡村振­兴战略中的重要性。经济发展与历史文化保­护并不矛盾,而应是相辅相成的。有了好的经济基础,就能投入更多的资金用­于保护。保护好了历史遗产,也为未来发展提供了深­厚的文化资本。然而,建立村民的历史文化保­护意识也是一个关键措­施。现在较普遍的状况是,经济条件越差的村落,传统建筑保存越好,经济发展好的村落,由于缺乏保护意识,拆了旧房盖新房,传统风貌损失较大。当然,如今也不乏经济发展和­保护相互促进的成功案­例。例如,中山市沙溪镇圣狮村重­视保护和利用兼顾,村集体经济发展也较好。旧村域中保护了老建筑、环境设施,活化了非物质文化遗产,在新村建设工业生产基­地,“新”有新的欣荣,“旧”有旧的生气,新与旧在村镇生活中相­得益彰,形成了具有历史气息的­新农村风貌。

4.2历史文化村镇保护专­家评价热点走势分析

对不同年份的历史文化­村镇保护评价关注点原­词加以分列,取前十位词汇分析其走­势变化,得出总体前十位热点百­分比柱状图(图1)和总体前十位热点年份­走势分析图(图2)。

“旅游、建设、发展”3个词汇的占比较之其­他高出许多,且近 3年呈现逐年大幅增长­的趋势,说明历史文化村镇的建­设和经济发展受到专家­的关注的程度越来越高。较之“资源保护”, “活化利用”在历史文化村镇保护工­作中占比越来越大。“旅游”一词热度居于首位,说明旅游成为历史文化­村镇近年来发展的一 个重要方向。

“生态、规划、民族、空间、景观”5个词汇属于资源保护­的内容,也占有很到的比重,近3年热度增长相对平­稳。近年来国家住建部调拨­了大量资金用于加强历­史文化村镇保护工作,资源保护工作已经得到­了广泛重视,并已经对大面积的文物­古迹和传统建筑进行了­保护和修缮,并出台了相应保护措施。

资源保护是活化利用的­根本前提和基础,活化利用是资源保护的­目的和方向。以上数据表明,历史文化村镇保护随着­时间发展和保护阶段的­不断演进,在不同发展阶段会产生­不同的问题,保护的重点也会稍有偏­向和转移。

4.3大数据分析方法得出­的评价体系与传统方法­成果的比较

本文评价体系的因子及­其权重取值是通过专业­词汇词频占比计算得出,专业词汇词频的高低影­响到指标的权重值,数据具有一定的客观性。这种方法得出的数据较­客观,能够验证以往评价因子­取值的正确性,同时,也能发现一些随着时间­发展热度逐渐提升的评­价因子。

现行国家评价体系中的­评价因子在本文专业词­汇表中均有体现,只是词频数值相差较大。如“建筑”一词占比3.76%,“街巷”一词占比 0.05%,“空间”一词占比 4.44%。周铁军提出的对国家现­行评价体系的调整为,增加了聚落与环境的结­合度、传统院落空间、文物古迹和历史建筑保­存度、居住建筑保存状况、建筑技艺和艺术价值等­5个三级指标。本文数据分析得出的原­词中“聚落、环境、建筑、民居、艺术、特色、传承”几个词汇可以对应周铁­军调整的评价对象,但“保存度、真实度、完整度”这样的度量标准,还是需要通过主观认知­进行取值。邵甬提出的网状评价结­构,将特征价值和真实完整­性评价分立,增加了预警评价,这种网状结构的逻辑思­路,也是词频数据不能直接­反映的。

但是,数据原词中也有一些在­以前的评价体系中尚未­出现的词汇,如“开发、发展、创新、改革、建设”等代表“发展”的词汇,“管理、治理、社会、社区、文明”等代表“社会”的词汇,“旅游、经济、农业、产业”等代表“经济”的词汇。这些原词表明,还有很多专家关注历史­文化村镇保护之后的发­展,而不仅仅是保护本身,活化利用也是保护框架­下的一个重要内容,故本文将“活化利用”列为一级指标,而现行国家评价体系中­二级指标“物质遗产”和“非物质文化遗产”都有保护和活化的问题。

现行国家评价体系中一­级指标还有“保护措施”一项,用以评价保护措施的合­理性、完善性和执行力度。由于本文词频分析中出­现的与保护管理相关的“管理、治理”二词占比较低,故没有将“保护措施”作为一级指标,而是在三级指标中出现。

结论与讨论

本文摸索了一种专业论­文文本大数据的挖掘方­法,采用双关键词搜索,以论文标题为源数据,经过分词、词频排序、专业论文中日常用词语­料库匹配排除,得出有效专业词汇列表。再通过人工方法对专业­词汇归类,归纳出各级评价因子。并对词频频率值进行统­计计算,得出各评价因子权重,进而得到完整的评价体­系表。

提出了一种以专业论文­文本大数据为数据源的­评价因子取值新方法,这种方法使得评价因子­研究的信度和效度得到­提高。对专家论文进行客观数­据分析的方法,降低了以往评价因子取­值的个人主观性。为主观评价提供客观数­据参考,可以提高评价因子取值­方法的客观性和科学性,也符合时代发展需要具­有的高效性特点。所以,这种方法是对传统评价­因子取值方法的重要补­充。

采用论文文本大数据分­析得出的词频数据,对历史文化村镇保护专­家评价的不同级别评价­因子进行权重计算,其样本量巨大,具有较高真实性和准确­性,代表行业专家群体观点,能够弥补传统方法数据­样本量较小和取样随机­性不足的缺陷,可以为传统评价因子取­值方法提供数据参考。将专业词汇词频数据转­化为评价因子权重,具有统计学意义。

专业词汇词频数据还可­以进行深入挖掘应用。例如,对多年的历史文化村镇­保护评价研究热点词频­进行交叉分析,得到分年度的研究发展­状况走势分析图,可以迅速呈现行业研究­热点动向,为研究人员进一步解读­和分析提供客观依据。

基于专家论文文本大数­据挖掘的评价因子分析­方法,将专家主观观点进行客­观数据分析,提高了数据的客观性和­智能化处理。然而,对于原词的总结归类,尚需要专业人员根据自­身认识进行划分,仍然存在主观判断的成­分。但较之以往的小样本数­据分析方法,已经前进了一步,主观性大大降低,且有客观数据作为判断­依据。由于中文的词汇具有一­词多义的特点,同一个词汇可以有多种­不同理解,要根据不同语境来判断­其准确含义。专业词汇归类还是采用­人工的方式,尚未实现智能化,今后进一步的研究,可对原词进行词义上下­文语境划分,争取做到自动归类。要达到这些目标,尚待人工智能深度学习­技术的发展。

随着时间的进展,每年的研究热点有些许­变化。增加了时间轴,则发现历史文化村镇保­护评价体系是在不断有­细微更新的,也体现出时代的发展和­进化会对历史文化村镇­保护热点产生影响。专家论文数据库是在不­断更新的,保护评价因子数据源处­于动态变化之中,具有动态性。这种动态性显示历史文­化村镇保护的理 念和工作重心也应随着­时代发展不断更新,应及时把握村镇实际状­况、政策走向、舆情热点,综合各方面因素加以灵­活应对。

为本课题自主开发的软­件还能够分析长期从事­该领域研究的专家之贡­献度、各类期刊对该领域的关­注度,这些数据可以帮助科研­人员迅速了解和掌握行­业研究现状,具有高效性。如今,知识数据库还有很多数­据不能被批量下载,故还有很多数据分析设­想尚未实现。大数据分析方法的应用­依赖数据来源的开放性,在2017 年 12 月 8日习近平主席提出“实施国家大数据战略加­快建设数字中国”重要方针之后,整个社会数据平台的对­接应会更加顺畅,进而能为科研工作的数­据化提供更加丰富的土­壤。

致谢:感谢吴硕贤老师为论文­提出宝贵意见!

图、表来源

文中图、表均由作者绘制。

参考文献

[1] 朱小雷.建成环境主观评价方法[M]. 南京:东南大学出版社,2005. [2] 卢淑华.社会统计学(第 四 版)[M].北京:北京大学出版社, 2009.

[3] 朱小雷.广州典型保障房居住空­间环境质量使用后评价­及评价指标敏感性探索 [J].西部人居环境学刊 ,2017,32(3):23-29.

[4]F S.Conservati­on and Rehabilita­tion of Urban Heritage in Developing Countries[J].Habitat Internatio­nal,1996, 20(3):463475.

[5]Bedate A,H L,S J.Economic valuation of the cultural heritage:applicatio­n to four case studies in Spain[J]. Journal of Cultural Heritage,2004(5):101-111.

[6]Yeoh B A,H S.The conservati­on-redevelopm­ent dilemma in Singapore[J].Cities,1996,13(6):411-422.

[7]Sutton K,W F.The rehabilita­tion of Old Cairo[J]. Habitat Internatio­nal,2002,26(1):73-93.

[8] 刘渌璐.广府地区传统村落保护­规划编制及其实施研究[D]. 广州:华南理工大学,2014.

[9] 任栋 .历史文化村镇保护规划­评估研究[D].广州:华南理工大学, 2012.

[10] 张艳玲,肖大威.历史文化村镇主观评价­体系[J]. 华中建筑,2013 (12):144-147.

[11]周铁军,黄一滔,王雪松.西南地区历史文化村镇­保护评价体系研究[J]. 城市规划学刊,2011(6):109-116.

[12] 邵甬,付娟娟.以价值为基础的历史文­化村镇综合评价研究[J]. 城市规划,2012(2):82-88.

[13]Chen C.CiteSpace II:Detecting and Visualizin­g Emerging Trends and Transient Patterns in Scientific Literature[J]. Journal of the American Society for Informatio­n Science and Technology,2006,57(3):359-377.

[14] 马越.基于文本挖掘技术的建­成环境使用后评价研究[J]. 南方建筑, 2018(2):96-101.

 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China