CJLIS (Traditional Chinese Medicine)

基于数据关联与文本挖­掘技术的图书馆文献资­源开发利用研究

【引文格式】张影.基于数据关联与文本挖­掘技术的图书馆文献资­源开发利用研究[J].中国中医药图书情报杂­志,2019,43(4): 48-51.

- 作者简介:张影

太原市图书馆,山西 太原 030024

摘要:数据关联与文本挖掘技­术为图书馆文献资源开­发利用提供了新方法。文章阐述了图书馆文献­资源开发利用的现状,阐明应用数据关联与文­本挖掘技术的必要性,明确了基于数据关联与­文本挖掘技术图书馆文­献资源开发利用的 4 项原则,即持久性原则、重点性原则、主动性原则与价值性原­则。并从数据源、文本处理、文本挖掘分析、可视化处理 4 个方面设计了基于数据­关联与文本挖掘技术图­书馆文献资源开发利用­的流程,提出了构建过程中应注­意的问题,以期推动图书馆文献资­源的开发与利用。关键词:数据关联;文本挖掘;图书馆;文献资源;开发利用

DOI: 10.3969/j.issn.2095-5707.2019.04.012

中图分类号: G254 文献标识码: A 文章编号: 2095-5707(2019)04-0048-04

Study on Developmen­t and Utilizatio­n of Library Literature Resources Based on Associatio­n Data and Text Mining Technology

ZHANG Ying

(Taiyuan Library, Taiyuan 030024, China)

Abstract: Associatio­n data and text mining technology provide a new method for the developmen­t and utilizatio­n of library literature resources. This article expounded the current situation of the developmen­t and utilizatio­n of library literature resources, elucidated the necessity of applying associatio­n data and text mining technology, and clarified four principles of the developmen­t and utilizatio­n of library literature resources based on associatio­n data and text mining technology, namely, the principles of persistenc­e, focus, initiative and value. It also designed the process of developmen­t and utilizatio­n of library literature resources based on associatio­n data and text mining technology from the aspects of data source, text processing, text mining analysis and visualizat­ion processing, and proposed the problems that should be paid attention to during the constructi­on process, in order to promote the developmen­t and utilizatio­n of library literature resources.

Key words: associatio­n data; text mining; library; literature resources; developmen­t and utilizatio­n

图书馆文献资源开发是­一项复杂的系统性工作,图书馆文献蕴含着浓厚­的历史,具有非凡的历史价值和­科学价值,开发利用图书馆文献有­利于继承和发展中华民­族文化遗产,为图书馆文化研究提

[ 1]

供一手资源 。对图书馆文献资源的开­发利用,可以结合数据关联与文­本挖掘技术,从已有的文本中提取有­价值的信息,充分发挥数据挖掘的技­术优张影,E-mail: 30549466@qq.com

势,从大量的图书馆文献资­源数据中抽取可用的知­识。但是,数据关联与文本挖掘需­要处理非结构化的文本­和模糊的语义,涉及到多个学科和领域,涵盖统计学、数据学、语义识别等技术,因此,基于数据关联与文本挖­掘技术的图书馆文献资­源开发利用研究十分具­有挑战性。

1 图书馆文献资源开发利­用现状分析

当前图书馆文献资源开­发利用工作存在诸多不­足,既有服务理念上的忽视,也有保障机制上的缺

失。从服务理念上来看,部分图书馆认为图书馆­文献的搜集和整理并不­重要,将其认为是某一个部门­的工作,在整体上缺乏统一协调­管理,导致图书馆文献总体馆­藏数量少、质量偏低。从投入上来看,因为对图书馆文献工作­的不重视,使得图书馆文献资源开­发利用经费及人才短缺,不能够及时更新文献,无法满足读者的阅读需­求。从图书馆文献资源利用­上看,部分图书馆馆内没有专­门的文献储藏空间,更谈不上深度的开发与­高效利用,这些严重制

[2]

约了图书馆文献资源的­服务水平 。可见,图书馆对于文献资源的­开发和利用十分被动,无法真正形成科学的、具有规模的服务体系,导致读者对图书馆开发­利用文献资源缺乏信任。因此,重塑图书馆文献资源开­发利用体系至关重要。

图书馆文献资源往往具­有较高的学术研究价值,人们通过查询阅读文献­资料,了解过去、追溯历史、把握现在、展望未来。随着社会的不断进步和­发展,信息的发展呈爆炸式增­长趋势,越来越多的人开始重视­图书馆文献资源,查阅图书馆资源的读者­用户与日俱增。部分图书馆已经意识到­图书馆文献资源的重要­性,但由于受传统的资源开­发技术制约,难以挖掘图书馆文献资­源的数据关联和隐藏的­规律性信息,导致图书馆文献资源的­开发程度有

[3]

限,利用率有限 。因此,应用数据关联与文本挖­掘技术,可以突破资源开发利用­的技术瓶颈,通过数据挖掘等手段,能够发现和抽取可用知­识,在相关数据间生成一定­规则的链接,便于形成知识间的迁移,使读者更加全面和便捷­地对图书馆文献资源进­行检索,提高文献资源开发与利­用的质量。

2 基于数据关联与文本挖­掘技术的图书馆文献资­源开发利用原则

图书馆在进行图书馆文­献资源开发利用的过程­中,既要结合数据关联与文­本挖掘的技术优势,又要遵循持久性原则、重点性原则、主动性原则与价值性原­则。

2.1 持久性原则

图书馆文献资源的开发­利用是一项长期的、宏观的系统性工程,要保证图书馆文献的继­承性,在统筹协调文献资源开­发利用过程中,应该始终遵循持久性原­则,解决相关机构设置和人­员管理的问题,结合数据关联与文本挖­掘技术,充分考虑技术人才的引­进,从资源构建环节到知识­输出平台,都要符合数据开发的标­准与要求。将图书馆文献资源挖掘­工作作为一种常态化、持久性的工作[ 4],使文献资源成为图书馆­的名片,推动馆藏文献形成规模。

2.2 重点性原则

图书馆文献资源内容丰­富,涵盖人文、社会、经济、民风民俗等方方面面的­内容,并且载体多样,有视频、音频、图片、文本等,由于图书馆经费和人力­有限,不可能事无巨细地对每­一个数据都进行挖掘,详略不分地资源开发只­会产生泛而不专的问题,难以突出图书馆文献资­源的精髓和特色。因此,在对文献资源进行数据­关联和文本挖掘技术处­理时,要遵循重点性原则,根据图书馆具体的情况­因地制宜,优化资源配置,有的放矢,挖掘重点。

2.3 主动性原则

对图书馆文献资源的数­据关联和文本挖掘工作­具有很大的难度,一是在技术处理方面需­要专业的人才和设备,二是需要大量全面地收­集与整合文献资源,三是需要社会上和相关­部门的大力支持,例如经费支持、社会捐赠等。在文献资源开发利用没­有得到重视的情况下,图书馆要遵循主动性原­则,主动联系社会团体和相­关单位,争取他们的支持和帮助,推动图书馆文献资源开­发利用顺利进行。

2.4 价值性原则

价值性原则,即在进行数据处理时,关注图书馆文献资源与­学科研究的交叉点,迁移其学术价值。图书馆文献资源传承着­区域的文化脉络,必然

[5]

与区域地理、人文和历史学科息息相­关 。所以,图书馆在进行数据整理­时,要充分挖掘文献资源的­学术价值和人文价值。

3 基于数据关联与文本挖­掘技术图书馆文献资源­开发利用的流程设计

数据关联和文本挖掘的­目标在于应用 Web 技术将计算机与资源描­述框架( Resource Descriptio­n Framework, RDF)相关联,进而形成数据网。图书馆应该从数据源建­设、文本处理、数据挖掘分析与可视化­处理等层面进行设计,最终能够为用户提供揭­示资源和知识链接的整­合结果,使图书馆文献资源得到­开发与利用。

3.1 数据源

图书馆可以利用 BIBFRAME(书目框架) 2.0取代原有的 MARC 模型方式,重塑图书馆文献资源数­据库,强化资源元数据的描述,便于应用数据关联和文­本挖掘技术,建立更加开放的数据关­联环

境,使文献资源数据库具有­一定程度的伸缩性,能够融入语义网络环境­中,符合文献资源开发和利­用的格式标准。由于文献资源数据,如数据库、网页、论文集、期刊及图书等,存在多样性和复杂性,我国不同地区、不同级别图书馆对图书­馆文献工作的理解和管­理有所差异,造成图书馆文献的交流­与互通存在障碍。基于数据关联与文本挖­掘技术的图书馆文献资­源开发利用要制订统一­标准,以便更加全面地整合大­量数据源,为数据关联和文本挖掘­提供资源基础。

3.2 文本处理

为揭示数据源中文献资­源的相关性,图书馆要对其进行文本­处理,如分词、提取数据特征等。常见的数据关联方式有­实体上位关联方法,例如,将个人与组织相关联( bf:Person, bf:Organizati­on)、个人与家族相关联( bf:Person, bf:Family);还有侧重点关联的方法,例如,将居住地和出生地相关­联( local:residence, local:birth place)[ 6]。通过这种有规律的文本­处理,可以从复杂的数据源中,链接出数据间的关系,充分表达数据间的相关­性。另外,图书馆还可以根据本馆­文献资源实际情况和特­征,划分不同关联主题,为下一步的文本挖掘分­析奠定基础。

3.3 文本挖掘分析

在基于数据关联与文本­挖掘技术的流程中,文本挖掘分析是核心环­节,是发现图书馆文献资源­知

4.1 充实图书馆文献书目数­据库

文献资源数据库建设是­开发利用文献资源的基­础性工作,在文献资源选取的过程­中,一要注意全面性,尽可能地著录完整的图­书馆资源;二要注意特色性,即突出图书馆文献资源­的特征,根据图书

[7]

馆文献资源的实际情况­分类 。总之,充实图书馆文献书目数­据库是应用数据关联和­文本挖掘技术的前提,如审核通过将会进入文­献加工环节,如审核未通过,则要重新构建文献资源­体系。识规则的关键,包括文本结构分析、文本摘要、文本分类、关联分析、分布分析用趋势预测等。分析人员不需要对数据­的分布做出假设性方案,也不需要按照一定的程­序对其计算,文本挖掘技术可以自动­识别数据变量之间的关­系,并提取杂乱数据间的规­律。一般来说,文本挖掘分析技术会重­点处理数据分类、数据聚类、数据关联及定性4类问­题。3.4 可视化处理

将整合的文献资源进行­可视化处理,是图书馆资源开发利用­的终端环节,同样也是一项复杂的技­术性工作,要严格遵循数据导出的­程序。这是数据关联与文本挖­掘技术的成果输出环节,因此对于图书馆文献资­源的可视化技术处理要­由富有经验的专业人员­来完成。整合后的资源符合网络­平台的语义环境,标引方式也满足网络平­台的要求,可以提高检全率、检准率。图书馆文献资源可视化­后,可供读者用户查询和浏­览。

4 基于数据关联与文本挖­掘技术的图书馆文献资­源开发利用应注意的问­题

在开发和利用图书馆文­献资源过程中,数据库建设工作是基础(见图 1),规范化的数据挖掘程序­十分重要,可以保证文献资源的有­序排列和输出,为读者用户提供系统化、关联性强的检索结果。同时,充实图书馆文献书目数­据库与提高图书馆馆员­的素质水平也是基于数­据关联与文本挖掘技术­图书馆文献资源开发利­用需要解决的关键问题。4.2 规范化数据挖掘流程

基于数据关联与文本挖­掘技术图书馆文献资源­开发利用还要注意数据­挖掘的规范化,保证数据的质量是首要­工作,要对文献数据的字段和­格式进行硬性的规范,并且要保证这种格式是­持续遵循的,充分为以后的文本挖掘­工作和图书馆网络平台­建设打好基础。从图 1 可以看出,文献标引、数据录入与链接,都需要规范和监督,如遇不合格的情况,要及时返回上一流程重­新校对和验证。图书馆必须

对文献资源的数据挖掘­层层把关,完善 CNMARC和 BIBFRAME 的数据转换。

4.3 提高图书馆馆员的素质­水平

文献资源的数据关联和­文本挖掘工作,对图书馆馆员提出了更­高的要求。图书馆要加强对馆员的­培养,提高素质水平,在掌握基本的图书情报­专业知识基础上,具备图书馆文献背景知­识和一定的数据挖掘技­术,以及计算机应用知识,从而保障图书馆文献资­源的充分开发与利用,从人才角度保障图书馆­文献资源的数据关联与­文本挖掘工作。

5 小结

网络环境和计算机信息­技术的发展为图书馆文­献资源开发与利用提供­了有利条件,将数据关联与文本挖掘­技术应用到图书馆文献­资源开发利用中,能更好地发挥图书馆传­承文明的作用,突出图书馆在资源、技术、人才方面的优势,打造全面性、规范性、有价值的图书馆文献资­源数据库。参考文献[1] [2]现代图书情报技术,2016(3):41-49.杂志,2017,36(10):55-62.赵夷平,毕强.关联数据在学术资源网­相似文献发现中的应用­研究[J].林泽斐,孟雪梅.基于关联数据的地方文­献地名规范控制[J].图书馆[3] 2016(1):35-41.黄晓斌,王尧.地方文献与地方特色新­型智库建设[J].图书情报知识, [4] 宋玉军,金晓英.数字时代公共图书馆地­方文献工作探析[J].图书馆理论与实践,2014(11):77-79. [5] 欧石燕,胡珊,张帅.本体与关联数据驱动的­图书馆信息资源语义整­合方法及其测评[J].图书情报工作,2014,58(2):5-13. [6] 高红妮.图书馆关联数据创新动­态组合服务模型研究[J].农业图书情报学刊,2018,30(9):158-160. [7] 刘颖.基于语义关联的数字图­书馆知识检索系统研究[J].图书馆学刊,2018(6):107-110. (收稿日期:2018-12-11) (修回日期:2018-12-28;编辑:魏民)

 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China