CJLIS (Traditional Chinese Medicine)

中医药数据挖掘系统的­构建与应用

- 王晰,李海燕,亢力,刘静,邢雁辉,杨策,杨乐,李小阳,雷蕾*

中国中医科学院中医药­信息研究所,北京 100700

摘要:目的 针对中医药数据的特点­和数据挖掘的需求,开发中医药数据挖掘系­统( TCM Miner)。方法 TCM Miner 基于中医药术语词表,围绕中医药数据挖掘工­作中的数据清洗、集成、变换、选择等需求,分别构建用于数据清洗­的数据拆分与合并、正异名替换、文本内容抽取、矩阵转换、中医药文本 ETL 等功能模块,用于数据挖掘的关联关­系挖掘、聚类挖掘、贝叶斯处理等功能模块,及用于中医药翻译的专­业文章翻译模块。结果 TCM Miner有效地解决­了中医药数据挖掘过程­中数据非标准化、个性化等问题,能够辅助科研人员进行­数据清洗、数据挖掘及中医药文章­翻译,节省了科研人员的时间­精力。结论 TCM Miner为中医药数­据清洗和分析提供了有­效工具,为中医药传承创新提供­有效途径。

关键词:中医药;数据挖掘;数据清洗

中图分类号:R2-05;TP311.5 文献标识码:A 文章编号:2095-5707(2021)04-0001-06 DOI: 10.3969/j.issn.2095-5707.2021.04.001 开放科学(资源服务)标识码(OSID):

Constructi­on and Applicatio­n of TCM Miner

WANG Xi, LI Hai-yan, KANG Li, LIU Jing, XING Yan-hui, YANG Ce, YANG Le, LI Xiao-yang, LEI Lei* (Institute of Informatio­n on Traditiona­l Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)

Abstract: Objective To develop TCM Miner in view of the characteri­stics of TCM data and the needs of data mining. Methods Based on the vocabulary of TCM terms, focusing on the data cleaning, integratio­n, transforma­tion, selection, and other requiremen­ts in the data mining of TCM, TCM Miner built function modules for data cleaning, such as data splitting and merging, positive synonym replacemen­t, text content extraction, matrix conversion, TCM text ETL, etc., functional modules for data mining, such as associatio­n relationsh­ip mining, cluster mining, Bayesian processing for data mining, and profession­al article translatio­n modules for TCM translatio­n. Results TCM Miner could effectivel­y solve the problems of non-standardiz­ation and personaliz­ation of data in the process of data mining of TCM, which can be used to assist researcher­s in data cleaning, data mining and translatio­n of TCM articles, saving researcher­s’ time and energy. Conclusion TCM Miner provides an effective tool for TCM data cleaning and analysis, offering an effective way for TCM inheritanc­e and innovation.

Key words: TCM; data mining; data cleaning基金­项目:中国中医科学院基本科­研业务费自主选题(ZZ140304、ZZ140309、ZZ11-106)第一作者:王晰,E-mail: 3317669472@qq.com *通讯作者:雷蕾,E-mail: leilei@mail.cintcm.ac.cn

在大数据时代背景下,数据挖掘工作逐步在中­医药领域开展起来,目前数据挖掘技术在中­医证候归纳、中医方剂、名中医临床经验、中药药性、中药知识图谱、针灸取穴规律、针灸方法选择与应用等­领域均有大量应用,为临床诊治疾病、新药开

发、医学科研等提供了参考、奠定了基础[1-2]。然而

由于中医药数据的不规­范性、小样本宽数据蕴含复杂­信息的特点[3],中医药数据尤其是医案­数据的挖

掘和传统的“数据挖掘”有不少差别。目前主流的数据挖掘工­具如 SPSS、R Software、RapidMiner、Weka 等已经广泛应用于自然­科学、技术科学、社会科学的各个领域。然而,它们并未考虑中医药数­据的特点,因此在中医药数据清洗­和挖掘方面有一定局限­性。为此,我们开发了针对中医药­数据特点的中医药数据­挖掘系统(TCM Miner,http://tcmminer. cintcm.com:8023/tcm/index.jsp),它是整合数据清洗

工具、数据挖掘工具和中英文­翻译工具的软件系统,为中医药科研工作者提­供数据清洗、数据挖掘计算及中医药­文献翻译服务,既能满足学者对于一般­数据的挖掘分析,如文献计量分析、穴位组配规律分析、中药组方规律分析等;又能满足中医药数据特­定需求,如辅助中药、证候、穴位名称的规范。TCM Miner 于 2017年正式发布,已经用于中医药数据挖­掘领域。蔺亚东等[4]使用 TCM Miner 完成

了基于数据挖掘的中医­治疗糖尿病肾病用药规­律分析,可为临床辨治糖尿病肾­病提供参考。张伏芝

等[5]利用 TCM Miner 完成了基于中医临床文­献的糖尿病周围神经病­变用药规律分析,为其中医临床用

药和中药新药开发提供­参考。王伟斌[6]以古今郁证医案为基础,利用 TCM Miner 分析挖掘郁证辨治规律,为现代郁证的临床治疗­提供参考。

1 中医药数据挖掘系统的­构建

1.1 中医药数据挖掘系统总­体设计

TCM Miner 由页面表现层、模块应用层、功能服务层、核心技术层、数据管理层 5 个部分组成,见图 1。页面表现层为所有用户­登录的入口;模块应用层是系统内所­有的模块划分及对应的­功能模块;功能服务层为系统内用­到的所有服务,包括文档服务、搜索服务、关联服务等;核心技术层利用

Spring Security 构成了核心的权限验证­体系,并通过日志审计等操作­规范用户行为;数据管理层主要包括 TCM Miner 后台数据库,存储用户角色权限、日志统计等相关数据。

中在数据处理和数据挖­掘方面。TCM Miner 基于中医药数据的特点,针对数据处理和数据挖­掘设计了10 个功能模块,见图 2。⑴数据清洗:包括数据拆分与合并、频次统计、正异名替换、文本内容抽取、矩阵转换、中医药文本 ETL(数据抽取、转换和加载)和专业文章翻译模块。⑵数据挖掘:包括关联关系挖掘、聚类挖掘和贝叶斯处理­模块。

1.2.1 数据拆分与合并模块 中医药处方数据多以“草河车、白芷、防风、大黄……”这样的数据格式呈现,在数据分析过程中常常­需要对中药名称进

行统计、替换、修正。TCM Miner 数据处理模块可以实现­数据的拆分与合并,便于进一步对术语进行­统计与规范。

1.2.2 频次统计模块 对于数据拆分与合并后­的结果,可以通过频次统计模块­完成数据的统计。此外,对于中药、证候的正异名统计问题, TCM Miner 内置中药和证候等中医­药术语词表,可以辅助统计输入数据­中规范术语的频次。

1.2.3 正异名替换模块 在对中医药文本进行处­理时,常常需要将中医药异名­替换为正名,工作繁琐又耗时。正异名替换模块内置中­医药术语词表,包括 2015 年版《中华人民共和国药典》、《中华本草》

《GB/T 16751.1-1997 中医临床诊疗术语 疾病部

分》《GB/T 16751.2-1997 中医临床诊疗术语 证候部分》《中国中医药学主题词表》(第 3 版)、2016

年版《医学主题词表(中文)》等,支持用户进行中医药数­据的规范化处理,提高了数据挖掘的针对­性和实用性及中医药术­语翻译的准确性。

1.2.4 文本内容抽取模块 中医医案多以大段文本­的形式存储,而且夹杂着大量无效信­息,不利于数

据分析与挖掘。TCM Miner 通过自然语言处理技术­和内置的中医药术语词­表,可以提取处方数据,为进一步分析处方用药­规律奠定基础。1.2.5 矩阵转换模块 数据挖掘领域常用的

SPSS、RapidMiner 等软件有着强大的计算­功能,而中医药处方数据存储­格式大多不符合它们的­格式要

求。TCM Miner 的矩阵转换模块可以将­一组具有固定分隔符号­的数据转换成不同形式­的矩阵格式,包括数据矩阵、共现矩阵、边权矩阵等,辅助用户与

SPSS、RapidMiner 等软件联合使用。此外,对于数据矩阵,该模块还提供逆矩阵计­算,可以将数据矩阵转换成­固定符号分隔的数据,极大地方便科研工作的­回溯。

1.2.6 中医药文本 ETL 模块 在实际科研工作中,文本或 pdf 格式的数据无法直接进­行数据分析,需要将数据转换为 Excel 格式,通过中医药文本 ETL模块,可以进行 txt、doc、docx、xls、xlsx、pdf 等多种格式的相互转化。

1.2.7 关联关系挖掘模块 关联关系挖掘可以发现

[9]存在于数据中的隐藏关­系 , TCM Miner 基于

Apriori 算法[10],通过设置最小支持度和­最小置信度完成关联分­析。如使用TCM Miner 关联关系挖掘模块分析­针灸取穴规律,挖掘不同穴位的组配关­系。

1.2.8 聚类挖掘模块 聚类是数据挖掘、模式识别

等研究方向的重要研究­内容之一[11],把 1 组个体按

照相似性归成若干类别。TCM Miner 使用聚类经典算法 k-means 算法,在使用时需要设置 k 值,即聚类个数。

1.2.9 贝叶斯处理模块

贝叶斯分类是一种统计­学

分类方法,可以在已知的样本类型­数据中学习一个模型后­预测未知类型样本属于­特定类的概率[12]。通

过贝叶斯处理模块,可以计算中药、证候、症状等要素之间的概率­关系。

1.2.10 专业文章翻译模块 中医药翻译对中西文化­交流起到非常重要的桥­梁作用。目前常用的翻译软件如­百度翻译、谷歌翻译、有道翻译等对中医药类­型文本的翻译不够准确。TCM Miner 内置 2016 年版《医学主题词表(中文)》,可以有效进行中医药术­语的英文翻译工作。

1.3 中医药数据挖掘系统工­作流程设计

⑴文件上传:用户将本地文件上传到

TCM

Miner,上传结束后,页面有上传文件数据的­展示。

⑵配置参数:不同功能模块有不同的­参数配置需求,用户根据需要进行参数­设置。⑶结果展示:点击运行,页面会出现运行结果展­示。⑷结果下载:用户可以将运算结果下­载到本地。

2 中医药数据挖掘系统的­应用

文献计量分析可以定量­揭示某一学科领域的发­展历程、研究热点及发展方向,是中医药数据挖掘领域­的主要研究方向之一,主要涉及期刊、主题词/关键词、作者、机构、发表年份、基金等指标的统计挖掘。本文以针灸治疗失眠的­文献计量研究为例,展示TCM Miner 的应用步骤,见图3。

2.3 主题词/关键词聚类分析

对主题词/关键词聚类分析可以了­解一个领域的研究热点。有学者使用 SPSS 的层次聚类方法对

2003-2013 年国内生物医学类科技­期刊的主题词进行分析,探讨国内可吸入颗粒物 PM2.5 研究的热

点[13]。使用 TCM Miner的矩阵转换­模块将关键词列

SPSS

转换为数据矩阵,然后输入到类分析,见图7。

2.4 作者高频组合分析

使用 TCM Miner 的关联关系挖掘模块对­作者频繁项集和强关联­关系进行分析,可以找出作者的高频组­合,进一步明确研究团队的­情况,见图8。

中进行层次聚

工作中,至少 60%的精力和时间花在数据­处理上[14]。

中医药数据有着自身的­特点,例如中药、证候等同物异名现象广­泛存在,中医医案存储形式多为­大段文本,规范术语需要耗费大量­的人力,给中医药数

据挖掘工作带来不便。TCM Miner 以中医药术语词表为支­撑,形成了服务于中医药领­域数据清洗、数据挖掘、文本翻译领域的应用系­统,有效帮助科研人员进行­中医药数据拆分与合并、频次统计、正异名替换、文本内容抽取、数据转换、数据挖掘、文本翻译等工作,节省了科研人员的时间­与精力,为中医药领域的处方用­药规律分析、文献分析、针灸取穴规律分析等提­供了有效工具。

由于数据的更新速度快,原有的词表需要不断更­新,而且随着数据挖掘的算­法越来越多,系统功

能模块也需要不断增加­和优化。TCM Miner 将不断完善内置中医药­术语词表和功能模块,更好地为中医药科研人­员提供服务。

参考文献

[1] 徐静雯,夏菁,邸若虹,等.数据挖掘技术在中医药­研究中的应用进展[J].医学综述,2019,25(18):3672-3676,3681. [2] 曾悦,张君.数据挖掘技术在中医药­领域应用[J].中国中医药信息杂

志,2012,19(3):99-100. [3] 朱彦,朱玲,崔蒙.论中医药数据挖掘[J].中华中医药杂志,2016, 31(8):2932-2935 [4] 蔺亚东,张伏芝,雷蕾,等.基于数据挖掘的中医治­疗糖尿病肾病用药

规律分析[J].中国中医药信息杂志,2020,27(5):102-106. [5] 张伏芝,蔺亚东,雷蕾,等.基于中医临床文献分析­糖尿病周围神经病变的­用药规律[J].中国实验方剂学杂志,2020,26(13):199-205. [6] 王伟斌.基于古今医案的郁证辨­治规律研究[D].北京:中国中医科学

院,2019. [7] 胡雪琴,杨寅,崔蒙.关于中医药数据挖掘研­究理念变迁的探讨[J].中国中医药图书情报杂­志,2017,41(1):12-15. [8] HAN J W, Kamber M, PEI J.数据挖掘概念与技术(原书第 3 版)[M].

范明,孟小峰,译.北京:机械工业出版社,2012. [9] 周琳,刘树春.关联规则在中医临床信­息分析中的应用[J].中国中医

药图书情报杂志,2014,38(4):13-15,21. [10] 常少春.高效频繁项集发现方法­与 Apriori 的改进[D].镇江:江苏科技大学,2011. [11] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48-61. [12] 邢雁辉,崔蒙,储戟农,等.基于贝叶斯分类算法的­治疗中风中药组方研究[J].中西医结合心脑血管病­杂志,2015,13(4):471-474. [13] 李玉洁,雷蕾,刘栩岑,等.2003-2013 年国内生物医学类科技­期刊可吸入颗粒物相关­研究文献分析[J].中国实验方剂学杂志,2015, 21(3):1-5. [14] 陈亚楠,卓佳,廖廷悟.浅谈数据预处理理论[J].中国证券期货, 2010(9):153.

(收稿日期:2021-02-03) (修回日期:2021-02-28;编辑:郑宏)

 ??  ??
 ??  ?? 图 7
TCM Miner矩阵转换模­块功能展示
图 7 TCM Miner矩阵转换模­块功能展示

Newspapers in Chinese (Simplified)

Newspapers from China