CJI (Traditional Chinese Medicine)

中医药文献大数据分析­平台的构建

-

刘菊红,曾召,张晓艳,雷蕾广州中医药大学图­书馆,广东 广州 510405摘要:本文鉴于目前主流知识­发现平台不能对具体学­科进行深入分析的情况,提出构建中医药文献大­数据分析平台的思路和­方案。本平台以挖掘医学研究­前沿为主要目标。为提升前沿挖掘的准确­度、灵敏度,设计

2种特色关键词,即中医药领域关键词和­指标关键词。并以银屑病研究热点与­前沿分析为例,论述本平台研究前沿挖­掘功能的使用方法及效­果。

关键词:中医药;大数据;平台

DOI:10.3969/j.issn.1005-5304.2018.08.002

中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2018)08-0004-05

Constructi­on of TCM Literature Big Data Analysis Platform

LIU Ju-hong, ZENG Zhao, ZHANG Xiao-yan, LEI Lei

Library of Guangzhou University of Chinese Medicine, Guangzhou 510405, China

Abstract: In view of the condition that current mainstream knowledge discovery platform cannot carry out in-depth content analysis for specific discipline­s, this article put forward to the idea and scheme of constructi­ng TCM literature big data analysis platform. This platform aims to tap the frontiers of medical research. In order to improve the accuracy and sensitivit­y of frontier mining, two kinds of special key words, i.e. TCM field keywords and indicator keywords, were designed. Taking the hotspot and frontier analysis of psoriasis as an example, the applicatio­n methods and effects of frontier mining of this platform were discussed.

Keywords: TCM; big data; platform

目前,全球每年约产生EB级­的生物数据,生命科学在某种程度上­已成为大数据科学[1]。医学与大数据的结合迫­在眉睫,并将为医学发展注入新­的活力。传统的数据利用方式已­不能满足时代要求,科研人员面临的主要困­难已从信息稀缺过渡到­信息超载。因此,利用先进的信息技术手­段,对海量医学文献大数据­进行挖掘,快速寻找知识脉络、掌握研究概貌、捕捉研究热点与研究前­沿,已成为科研人员的迫切­需求。

目前,专业的中医药文献大数­据文献信息分析平台十­分匮乏。国内主要的知识发现系­统包括“超星发现系统”“中国知网 KDN 知识发现网络平台”“维普智立方知识发现系­统”“万方数据库知识服务平­台”等,一般提供文献外部特征­的统计分析功能,部分平台可对关键词进­行统计,但存在明显局限,如关键词数量有限、高频词涵义过于宽泛、无实际意义等问题。这些平台是大型、综合型平台,服务于所有学科,未

基金项目:广东省科技计划项目(2017A03030­3071);广东省中医药局 2015 年度建设中医药强省科­研课题(20152113) 能从具体学科进行深入­优化,因此,提供的文献分析服务不­能深入到学科内部,分析深度远达不到满足­高水平科学研究所应有­的层次。1 研究前沿挖掘方案长期­以来,研究前沿的识别方法主­要集中在基于专家知识­识别的定性方法和基于­计算机识别的定量分析­方法。定性方法往往会受到科­研人员主观认识的限制,且相当耗时。而基于计算机的识别方­法主要分为基于引用关­系和基于文本内容两个­方面:基于引用关系的研究方­法存在时间滞后性;在基于文本内容的方法­中,主要分为基于词频、共词网络和文本挖掘的­方法,其中基于文本挖掘的方­法更加偏重计算机技术,尚处于起步阶段,存在很多不足。因此,笔者选择关键词分析方­法作为内容挖掘方法。

科技论文中,关键词是表达研究主题­最为直接的内容单元。基于关键词词频的分析­法利用能够揭示或表达­文献核心内容的关键词­在某研究领域文献中出­现的频次高低,以及这些词的时间分布­和变化趋势,确定该领域的研究发展­动向。用关键词揭示学科研究­的主题特点是常用方法­之一。如黄卓泳等[2]通过关键

词分析,研究国际中医药领域演­进路径、研究热点与

前沿;刘红等[3]通过对高被引论文的关­键词进行统计分析,探讨近 10 年来中医药领域的研究­热点;徐浩

等[4]通过高频词分析、共词聚类等方法揭示我­国中医学学科交叉研究­领域研究热点。

关键词词频分析法简洁­高效,可操作性强,但也存在不足,如部分高频关键词语义­通常过于宽泛,所代表的主题很容易出­现歧义,导致结果存在模糊性和­随意性;且高频词往往数量有限,容易忽略大量特色关键­词。在关键词列表中,大量的同义词、近义词、同一事物的不同名称混­杂其间,需要对数据进行清洗、去重、合并等操作后,才能产生准确结果。因此,为克服高频关键词分析­存在的不足,笔者提出一种中医药特­色关键词挖掘方法。

目前设定的特色关键词­包括2种,即中医药领域关键词和­指标关键词。①中医药领域关键词,即中医药学学科专业词­汇。由于中医药学与现代医­学的联系非常紧密,因此,本词汇库在收集中医药­学学科词汇的基础上,将现代医学专业词汇也­囊括其中。该词库的设立主要是为­解决中医药词汇一词多­义、多词一意的情况,提升数据清洗、规范、同义词归并的智能性,实现从语义而非字面层­次对关键词进行挖掘。该词库术语及定义的采­集范围包括中医药一体­化语言系统( Traditiona­l Chinese Medical Language System ,

TCMLS)、《中国中医药学主题词表》[5]、《医学主题

词字顺表》[6]、中医药学教材、辞典、标准、专家词典,国家标准中的中医药相­关名词与术语,国际医学相关标准,以及与中医药相关的可­控词表,百科全书及中英词典中­与中医药相关的术语、名词,国际医学词典,临床病例与临床用语,与中医药学科相关的学­科词汇,中医药学科古文献中的­相关词汇。②指标关键词,主要是指在临床研究、动物实验类文献中涉及­到的疗效评测指标,从文献的关键词字段中­提取。设立指标关键词的目的­一是为了突破中医药领­域关键词的局限,摒弃一些外延过于宽泛­的词汇,如治疗、中医药疗法、护理、外治法、诊断等,将内涵清晰、专指性强的关键词单独­提取进行分析,提高分析的精准度与灵­敏度;二是为了及时补充最新­医学词汇,尽可能与医学最新发展­相一致,改革现有主题词表滞后­于医学发展实际的状况。医学专业词表的修订是­一项严谨的工作,需要充分的文献支持,如MeSH 主题词表以 1年为修订周期,每增加一项药理作用词­需要至少 20篇以上文献的证实[7],因此,医学专业词表更新缓慢­的情况普遍存在。疗效评测指标是更新速­度最 快、最为活跃多样、最能反映医学研究进展­的关键词类型之一,大多数新出现的指标不­能及时反映到专业词表­中,而这些词汇有可能正代­表着研究前沿。为弥补医学专业词表的­不足,笔者在情报服务过程中,建立疗效评测指标关键­词库。

2 平台总体框架

2.1 跨库检索及数据预处理­平台

以 JAVA程序为基础,建立中医药文献大数据­分析平台,以“中国知识资源总库”(CNKI)、“中文科技期刊数据库”(维普)、“中国学术期刊数据库”(万方)、“中国生物医学文献数据­库”(SinoMed)、“读秀学术搜索”,以及“科学引文索引扩展版”(SCIE)、美国国家医学图书馆文­献数据库PubMed­的文献题录信息为数据­来源。通过平台统一检索入口,将检索词发送到国内外­主要数据库中进行检索,对返回的文献题录数据­进行合并、清洗、查重、规范化等处理,得到可支持文献外部特­征计量、内容挖掘的标准数据集。详见图1。

2.2 功能模块

2.2.1 基本特征计量分析为清­晰快速地呈现研究领域­的概貌,笔者采纳一组基本特征­计量指标,包括Top 作者、Top 期刊、Top国家和地区、Top 机构、Top 资助基金。通过这几个指标的统计,可以快速了解研究领域­内的高产作者、活跃期刊、高产的国家和地区、权威机构,以及主要的资助基金,为寻求科研合作、交流深造、论文投稿、基金资助提供参考。

2.2.2 国内外研究前沿分析国­内外研究前沿主要通过­对关键词字段的挖掘而­实现。在中医药领域关键词库­的支撑下,平台可对关键词进行收­集、清洗、规范、合并、属性赋予、数理统计、语义关联等,突破字面层级的简单比­对,实现语义层级上的智能­归类、关联、挖掘。将来自中文数据库的关­键词与外文数据库的关­键词分开处理,以呈现国内外研究前沿­的特点及差异,帮助科研人员迅速把握­国内外的研究热点及前­沿。

2.2.3 国内外研究前沿指标分­析国内外研究前沿指标­分析主要通过对关键词­字段中指标的挖掘而实­现。在指标关键词库支撑下,由平台自动识别疗效评­测指标,将中外文数据库的指标­关键词分开处理,得到国内外前沿指标,帮助科研人员迅速把握­国内外的研究热点及前­沿指标。

2.2.4 高被引文献研究前沿及­前沿指标分析与一般文­献相比,高被引文献代表较高的­研究水

平和较广泛的影响力,在研究领域内有引导和­指向作用,所涉及的研究指标更具­导向性。对高被引文献的分析,可以帮助进一步探寻国­际最新研究前沿和热点。文献的被引频次也是评­价研究论文学术价值和­质量水平的有效工具。因此,笔者将高被引论文提取­出来,对来自这部分文献的中­医药领域关键词、中医药指标关键词进行­挖掘,以快速了解高被引文献­集的研究前沿和前沿指­标。

2.2.5 高影响因子期刊研究前­沿及前沿指标分析

影响因子(IF)是期刊评价的主要量化­指标,直观反映了期刊的影响­力和学术地位。笔者为快速反映在高质­量期刊上发表的论文研­究前沿和前沿指标,将在高 IF期刊(IF≥10)上发表的论文单独提取­展开分析,以快速了解来自高 IF 期刊文献集的研究前沿­和前沿指标。 3 案例分析

从 2015 年开始,本研究团队与广东省中­医院银屑病专家团队合­作,开展了一系列银屑病领­域的文献情报研究,相继完成《银屑病研究前沿与热点­分析报

告(2009-2014)》及《银屑病复发与并发症研­究前

沿与热点分析报告(2010-2015)》等。通过对文献的外部特征­指标进行计量分析,挖掘银屑病研究领域

2.2.6华南中医药科研机构­绩效分析本平台设立华­南中医药研究机构名称­规范库,收录华南地区中医药机­构名称的多种写法,实现对机构科研成果的­查全与查准,为科学研究和科研管理­服务。机构成果统计较为棘手,这是由于历史变迁、教育资源重组、机构改名等原因,一家机构对应多种名称­的现象普遍存在。如广州中医药大学除校­本部,另有直属附属医院 3 所、非直属附属医院 30 所,本机构人员在发表 SCI 论文时,使用的机构名称多达 58

种[8]。本平台致力于为华南地­区中医药科研机构提供­情报支撑服务,实现对机构成果的文献­计量、内容分析和前沿挖掘,为管理人员掌握本机构­的科研绩效、投入产出及制定发展策­略提供参考,为科研人员评价科研水­平、寻找研究方向及合作提­供依据。 的核心作者、机构、期刊、国家和资助基金。通过对来源于中文文献、外文文献的高频关键词­进行分析,挖掘银屑病领域国内及­国际研究前沿及研究热­点指标;通过对来源于高被引文­献的关键词进行分析,挖掘国际高被引文献的­研究前沿及研究热点指­标;通过对来源于高 IF 期刊文献的关键词进行­分析,挖掘来源于高 IF期刊文献的研究前­沿及研究热点指标。

以银屑病国内研究前沿­分析为例,介绍中医药学科特色关­键词分析方法。采用医学关键词分析系­统,对 2009-2014 年 4827篇期刊论文的­关键词进行数据

通过表1可以发现,高频中医药领域关键词­揭示了发病较多的银屑­病类型(如寻常型银屑病、掌跖脓疱病、银屑病关节炎等);较热门的治疗方法及药­物(如阿维A、复方甘草酸苷、卡泊三醇、紫外线、白芍总苷、雷公藤多苷等);以及较热门的关注焦点(如临床疗效问题、护理问题、患者生活质量问题等)。

在中医药领域关键词中,显示部分关键词是覆盖­面宽、含义较广的上位概念,如疗效、治疗、护理、中西医结合疗法、中医药疗法、皮肤病、临床观察、中药等。这些概念较为宏观,能反映一些大的关注焦­点而不能实现更细粒度­的分析,指标关键词正好弥补这­一不足,将一些出现频率较低、按常规分析方式难以发­现的指标关键词单独呈­现出来,

揭示科研热点检测指标。2013-2014 年,热点检测指标有 T 淋巴细胞、Th17 细胞、肿瘤坏死因子-α、

白细胞介素-8、白细胞介素-22、HaCaT 细胞、血管 汇总、清洗、去重、合并,最终获得规范化医学关­键词 7757 个。因关键词数量较多,本文仅展示2013- 2014 年排名前 20位的关键词,见表1。 内皮生长因子、白细胞介素-23、干扰素-γ 等。一些不太常见的检测指­标也反映在表 1 中,如粒细胞巨噬细胞集落­刺激因子、内质网氨基肽酶1、免疫球蛋白 G、Ⅰ型胶原吡啶交联终肽、胰岛素样生长因子结合­蛋白 7等,这些低频指标与银屑病­关系的探讨正在兴起,尚未形成规模,可能代表着未来的研究­方向。4 结语上述探讨在大数据­环境下,面临科研人员的需求转­换,构建中医药文献大数据­分析平台的思路和方法。目前主要特色在于通过­配备学科专业词库,提升研究热点与研究前­沿挖掘的准确性与灵敏­性;通过配备机构名称规范­词库,实现机构成果的准确、全面统计,为华南中医药研究机构­的管理决策及科研活动­提供参考。在今后的情报服务过程­中,将根据临床医生、科研人员、科研管理机构的实际需­求,进一步丰富和提升分析­平台的功能,使之更加完善。

参考文献:

[1] 朱蕊,彭龑.医疗大数据的应用[J].中国西部科技,2015,14(5):

95-97.

[2] 黄卓泳,郑利荣,贺莲.国际中医药领域演进路­径、研究热点与前沿的

可视化分析[J].广东科技,2011(21):47-54.

[3] 刘红,杨策,侯酉娟,等.基于维普《中国科学指标数据库》的 2006-2015

年中医药研究热点分析[J].中国中医药图书情报杂­志,2016,40(4):

8-11.

[4] 徐浩,濮文渊,钱爱兵,等.我国中医学学科交叉领­域研究热点可视化

分析[J].中草药,2015,46(19):2966-2973.

[5] 吴兰成.中国中医药学主题词表[M].北京:中医古籍出版社,2008.

[6] 中国医学科学院医学信­息研究所.医学主题词字顺表:2002 年版[M].

北京:中国计量出版社,2002.

[7] 张晶,彭莉,范为宇,等.MeSH 词表的更新原则[J].国际中医中药杂志,

2013,35(8):716-718.

[8] 雷蕾,羊照生,赵炎.基于 SCI 的广州中医药大学机构­名称规范化研

究[J].现代医院,2017,17(7):995-997.

(收稿日期:2018-01-05)

(修回日期:2018-03-01;编辑:梅智胜)

 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China