CJI (Traditional Chinese Medicine)
中医药文献大数据分析平台的构建
刘菊红,曾召,张晓艳,雷蕾广州中医药大学图书馆,广东 广州 510405摘要:本文鉴于目前主流知识发现平台不能对具体学科进行深入分析的情况,提出构建中医药文献大数据分析平台的思路和方案。本平台以挖掘医学研究前沿为主要目标。为提升前沿挖掘的准确度、灵敏度,设计
2种特色关键词,即中医药领域关键词和指标关键词。并以银屑病研究热点与前沿分析为例,论述本平台研究前沿挖掘功能的使用方法及效果。
关键词:中医药;大数据;平台
DOI:10.3969/j.issn.1005-5304.2018.08.002
中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2018)08-0004-05
Construction of TCM Literature Big Data Analysis Platform
LIU Ju-hong, ZENG Zhao, ZHANG Xiao-yan, LEI Lei
Library of Guangzhou University of Chinese Medicine, Guangzhou 510405, China
Abstract: In view of the condition that current mainstream knowledge discovery platform cannot carry out in-depth content analysis for specific disciplines, this article put forward to the idea and scheme of constructing TCM literature big data analysis platform. This platform aims to tap the frontiers of medical research. In order to improve the accuracy and sensitivity of frontier mining, two kinds of special key words, i.e. TCM field keywords and indicator keywords, were designed. Taking the hotspot and frontier analysis of psoriasis as an example, the application methods and effects of frontier mining of this platform were discussed.
Keywords: TCM; big data; platform
目前,全球每年约产生EB级的生物数据,生命科学在某种程度上已成为大数据科学[1]。医学与大数据的结合迫在眉睫,并将为医学发展注入新的活力。传统的数据利用方式已不能满足时代要求,科研人员面临的主要困难已从信息稀缺过渡到信息超载。因此,利用先进的信息技术手段,对海量医学文献大数据进行挖掘,快速寻找知识脉络、掌握研究概貌、捕捉研究热点与研究前沿,已成为科研人员的迫切需求。
目前,专业的中医药文献大数据文献信息分析平台十分匮乏。国内主要的知识发现系统包括“超星发现系统”“中国知网 KDN 知识发现网络平台”“维普智立方知识发现系统”“万方数据库知识服务平台”等,一般提供文献外部特征的统计分析功能,部分平台可对关键词进行统计,但存在明显局限,如关键词数量有限、高频词涵义过于宽泛、无实际意义等问题。这些平台是大型、综合型平台,服务于所有学科,未
基金项目:广东省科技计划项目(2017A030303071);广东省中医药局 2015 年度建设中医药强省科研课题(20152113) 能从具体学科进行深入优化,因此,提供的文献分析服务不能深入到学科内部,分析深度远达不到满足高水平科学研究所应有的层次。1 研究前沿挖掘方案长期以来,研究前沿的识别方法主要集中在基于专家知识识别的定性方法和基于计算机识别的定量分析方法。定性方法往往会受到科研人员主观认识的限制,且相当耗时。而基于计算机的识别方法主要分为基于引用关系和基于文本内容两个方面:基于引用关系的研究方法存在时间滞后性;在基于文本内容的方法中,主要分为基于词频、共词网络和文本挖掘的方法,其中基于文本挖掘的方法更加偏重计算机技术,尚处于起步阶段,存在很多不足。因此,笔者选择关键词分析方法作为内容挖掘方法。
科技论文中,关键词是表达研究主题最为直接的内容单元。基于关键词词频的分析法利用能够揭示或表达文献核心内容的关键词在某研究领域文献中出现的频次高低,以及这些词的时间分布和变化趋势,确定该领域的研究发展动向。用关键词揭示学科研究的主题特点是常用方法之一。如黄卓泳等[2]通过关键
词分析,研究国际中医药领域演进路径、研究热点与
前沿;刘红等[3]通过对高被引论文的关键词进行统计分析,探讨近 10 年来中医药领域的研究热点;徐浩
等[4]通过高频词分析、共词聚类等方法揭示我国中医学学科交叉研究领域研究热点。
关键词词频分析法简洁高效,可操作性强,但也存在不足,如部分高频关键词语义通常过于宽泛,所代表的主题很容易出现歧义,导致结果存在模糊性和随意性;且高频词往往数量有限,容易忽略大量特色关键词。在关键词列表中,大量的同义词、近义词、同一事物的不同名称混杂其间,需要对数据进行清洗、去重、合并等操作后,才能产生准确结果。因此,为克服高频关键词分析存在的不足,笔者提出一种中医药特色关键词挖掘方法。
目前设定的特色关键词包括2种,即中医药领域关键词和指标关键词。①中医药领域关键词,即中医药学学科专业词汇。由于中医药学与现代医学的联系非常紧密,因此,本词汇库在收集中医药学学科词汇的基础上,将现代医学专业词汇也囊括其中。该词库的设立主要是为解决中医药词汇一词多义、多词一意的情况,提升数据清洗、规范、同义词归并的智能性,实现从语义而非字面层次对关键词进行挖掘。该词库术语及定义的采集范围包括中医药一体化语言系统( Traditional Chinese Medical Language System ,
TCMLS)、《中国中医药学主题词表》[5]、《医学主题
词字顺表》[6]、中医药学教材、辞典、标准、专家词典,国家标准中的中医药相关名词与术语,国际医学相关标准,以及与中医药相关的可控词表,百科全书及中英词典中与中医药相关的术语、名词,国际医学词典,临床病例与临床用语,与中医药学科相关的学科词汇,中医药学科古文献中的相关词汇。②指标关键词,主要是指在临床研究、动物实验类文献中涉及到的疗效评测指标,从文献的关键词字段中提取。设立指标关键词的目的一是为了突破中医药领域关键词的局限,摒弃一些外延过于宽泛的词汇,如治疗、中医药疗法、护理、外治法、诊断等,将内涵清晰、专指性强的关键词单独提取进行分析,提高分析的精准度与灵敏度;二是为了及时补充最新医学词汇,尽可能与医学最新发展相一致,改革现有主题词表滞后于医学发展实际的状况。医学专业词表的修订是一项严谨的工作,需要充分的文献支持,如MeSH 主题词表以 1年为修订周期,每增加一项药理作用词需要至少 20篇以上文献的证实[7],因此,医学专业词表更新缓慢的情况普遍存在。疗效评测指标是更新速度最 快、最为活跃多样、最能反映医学研究进展的关键词类型之一,大多数新出现的指标不能及时反映到专业词表中,而这些词汇有可能正代表着研究前沿。为弥补医学专业词表的不足,笔者在情报服务过程中,建立疗效评测指标关键词库。
2 平台总体框架
2.1 跨库检索及数据预处理平台
以 JAVA程序为基础,建立中医药文献大数据分析平台,以“中国知识资源总库”(CNKI)、“中文科技期刊数据库”(维普)、“中国学术期刊数据库”(万方)、“中国生物医学文献数据库”(SinoMed)、“读秀学术搜索”,以及“科学引文索引扩展版”(SCIE)、美国国家医学图书馆文献数据库PubMed的文献题录信息为数据来源。通过平台统一检索入口,将检索词发送到国内外主要数据库中进行检索,对返回的文献题录数据进行合并、清洗、查重、规范化等处理,得到可支持文献外部特征计量、内容挖掘的标准数据集。详见图1。
2.2 功能模块
2.2.1 基本特征计量分析为清晰快速地呈现研究领域的概貌,笔者采纳一组基本特征计量指标,包括Top 作者、Top 期刊、Top国家和地区、Top 机构、Top 资助基金。通过这几个指标的统计,可以快速了解研究领域内的高产作者、活跃期刊、高产的国家和地区、权威机构,以及主要的资助基金,为寻求科研合作、交流深造、论文投稿、基金资助提供参考。
2.2.2 国内外研究前沿分析国内外研究前沿主要通过对关键词字段的挖掘而实现。在中医药领域关键词库的支撑下,平台可对关键词进行收集、清洗、规范、合并、属性赋予、数理统计、语义关联等,突破字面层级的简单比对,实现语义层级上的智能归类、关联、挖掘。将来自中文数据库的关键词与外文数据库的关键词分开处理,以呈现国内外研究前沿的特点及差异,帮助科研人员迅速把握国内外的研究热点及前沿。
2.2.3 国内外研究前沿指标分析国内外研究前沿指标分析主要通过对关键词字段中指标的挖掘而实现。在指标关键词库支撑下,由平台自动识别疗效评测指标,将中外文数据库的指标关键词分开处理,得到国内外前沿指标,帮助科研人员迅速把握国内外的研究热点及前沿指标。
2.2.4 高被引文献研究前沿及前沿指标分析与一般文献相比,高被引文献代表较高的研究水
平和较广泛的影响力,在研究领域内有引导和指向作用,所涉及的研究指标更具导向性。对高被引文献的分析,可以帮助进一步探寻国际最新研究前沿和热点。文献的被引频次也是评价研究论文学术价值和质量水平的有效工具。因此,笔者将高被引论文提取出来,对来自这部分文献的中医药领域关键词、中医药指标关键词进行挖掘,以快速了解高被引文献集的研究前沿和前沿指标。
2.2.5 高影响因子期刊研究前沿及前沿指标分析
影响因子(IF)是期刊评价的主要量化指标,直观反映了期刊的影响力和学术地位。笔者为快速反映在高质量期刊上发表的论文研究前沿和前沿指标,将在高 IF期刊(IF≥10)上发表的论文单独提取展开分析,以快速了解来自高 IF 期刊文献集的研究前沿和前沿指标。 3 案例分析
从 2015 年开始,本研究团队与广东省中医院银屑病专家团队合作,开展了一系列银屑病领域的文献情报研究,相继完成《银屑病研究前沿与热点分析报
告(2009-2014)》及《银屑病复发与并发症研究前
沿与热点分析报告(2010-2015)》等。通过对文献的外部特征指标进行计量分析,挖掘银屑病研究领域
2.2.6华南中医药科研机构绩效分析本平台设立华南中医药研究机构名称规范库,收录华南地区中医药机构名称的多种写法,实现对机构科研成果的查全与查准,为科学研究和科研管理服务。机构成果统计较为棘手,这是由于历史变迁、教育资源重组、机构改名等原因,一家机构对应多种名称的现象普遍存在。如广州中医药大学除校本部,另有直属附属医院 3 所、非直属附属医院 30 所,本机构人员在发表 SCI 论文时,使用的机构名称多达 58
种[8]。本平台致力于为华南地区中医药科研机构提供情报支撑服务,实现对机构成果的文献计量、内容分析和前沿挖掘,为管理人员掌握本机构的科研绩效、投入产出及制定发展策略提供参考,为科研人员评价科研水平、寻找研究方向及合作提供依据。 的核心作者、机构、期刊、国家和资助基金。通过对来源于中文文献、外文文献的高频关键词进行分析,挖掘银屑病领域国内及国际研究前沿及研究热点指标;通过对来源于高被引文献的关键词进行分析,挖掘国际高被引文献的研究前沿及研究热点指标;通过对来源于高 IF 期刊文献的关键词进行分析,挖掘来源于高 IF期刊文献的研究前沿及研究热点指标。
以银屑病国内研究前沿分析为例,介绍中医药学科特色关键词分析方法。采用医学关键词分析系统,对 2009-2014 年 4827篇期刊论文的关键词进行数据
通过表1可以发现,高频中医药领域关键词揭示了发病较多的银屑病类型(如寻常型银屑病、掌跖脓疱病、银屑病关节炎等);较热门的治疗方法及药物(如阿维A、复方甘草酸苷、卡泊三醇、紫外线、白芍总苷、雷公藤多苷等);以及较热门的关注焦点(如临床疗效问题、护理问题、患者生活质量问题等)。
在中医药领域关键词中,显示部分关键词是覆盖面宽、含义较广的上位概念,如疗效、治疗、护理、中西医结合疗法、中医药疗法、皮肤病、临床观察、中药等。这些概念较为宏观,能反映一些大的关注焦点而不能实现更细粒度的分析,指标关键词正好弥补这一不足,将一些出现频率较低、按常规分析方式难以发现的指标关键词单独呈现出来,
揭示科研热点检测指标。2013-2014 年,热点检测指标有 T 淋巴细胞、Th17 细胞、肿瘤坏死因子-α、
白细胞介素-8、白细胞介素-22、HaCaT 细胞、血管 汇总、清洗、去重、合并,最终获得规范化医学关键词 7757 个。因关键词数量较多,本文仅展示2013- 2014 年排名前 20位的关键词,见表1。 内皮生长因子、白细胞介素-23、干扰素-γ 等。一些不太常见的检测指标也反映在表 1 中,如粒细胞巨噬细胞集落刺激因子、内质网氨基肽酶1、免疫球蛋白 G、Ⅰ型胶原吡啶交联终肽、胰岛素样生长因子结合蛋白 7等,这些低频指标与银屑病关系的探讨正在兴起,尚未形成规模,可能代表着未来的研究方向。4 结语上述探讨在大数据环境下,面临科研人员的需求转换,构建中医药文献大数据分析平台的思路和方法。目前主要特色在于通过配备学科专业词库,提升研究热点与研究前沿挖掘的准确性与灵敏性;通过配备机构名称规范词库,实现机构成果的准确、全面统计,为华南中医药研究机构的管理决策及科研活动提供参考。在今后的情报服务过程中,将根据临床医生、科研人员、科研管理机构的实际需求,进一步丰富和提升分析平台的功能,使之更加完善。
参考文献:
[1] 朱蕊,彭龑.医疗大数据的应用[J].中国西部科技,2015,14(5):
95-97.
[2] 黄卓泳,郑利荣,贺莲.国际中医药领域演进路径、研究热点与前沿的
可视化分析[J].广东科技,2011(21):47-54.
[3] 刘红,杨策,侯酉娟,等.基于维普《中国科学指标数据库》的 2006-2015
年中医药研究热点分析[J].中国中医药图书情报杂志,2016,40(4):
8-11.
[4] 徐浩,濮文渊,钱爱兵,等.我国中医学学科交叉领域研究热点可视化
分析[J].中草药,2015,46(19):2966-2973.
[5] 吴兰成.中国中医药学主题词表[M].北京:中医古籍出版社,2008.
[6] 中国医学科学院医学信息研究所.医学主题词字顺表:2002 年版[M].
北京:中国计量出版社,2002.
[7] 张晶,彭莉,范为宇,等.MeSH 词表的更新原则[J].国际中医中药杂志,
2013,35(8):716-718.
[8] 雷蕾,羊照生,赵炎.基于 SCI 的广州中医药大学机构名称规范化研
究[J].现代医院,2017,17(7):995-997.
(收稿日期:2018-01-05)
(修回日期:2018-03-01;编辑:梅智胜)