中药子领域核心概念本体模型构建研究

刘丽红,贾李蓉,朱彦,刘静,高博中国中医科学院中医药信息研究所,北京 100700

CJI (Traditional Chinese Medicine) - - 中国中医药信息杂志 - 基金项目:国家自然科学基金青年基金(61601521);北京市 自然科学基金(7174328) 通讯作者:朱彦,E-mail:[email protected]

摘要:目的 针对中医药信息交叉领域概念交叉和术语歧义造成的领域知识表达混乱现状,以中药子领域为样本,初步实现其核心概念的知识表达和本体建模。方法 通过收集和梳理包括2015年版《中华人民共和国药典》(一部)、《中药编码规则及编码》、《中华本草》、《中药大辞典》、《中药学》、《临床中药学》的中药知识权威来源数据,基于本体论的概念建模方法,明确中药概念内涵,确定概念属性,厘清概念间的关系,初步完成中药子领域核心概念的本体建模。结果 完成包括“中药”“中药材”“中药饮片”“中成药”等核心概念的本体建模。结论 初步实现中药相关核心概念模型的构建,可为其他子领域的中医药知识表达和共享提供参考。关键词:中药子领域;本体;概念模型DOI:10.3969/j.issn.1005-5304.2018.11.021中图分类号:R2-03 文献标识码:A 文章编号:1005-5304(2018)11-0095-04

Construction of Ontological Modeling for Core Concepts of TCM Sub-domain LIU Li-hong, JIA Li-rong, ZHU Yan, LIU Jing, GAO Bo

Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China Abstract: Objective In view of the inconsistency between the concepts of TCM in the field of TCM information intersection, the confusion of domain knowledge expression caused by conceptual cross and term ambiguity, and taking TCM sub-domain as a sample, knowledge representation and ontological modeling of core concepts are realized. Methods Through collecting and combing 2015 version of Pharmacopoeia of People's Republic of China (the first volume), Coding Rules for Chinese Medicines and Their Codes, Chinese Materia Medica, TCM Dictionary,

Science of Chinese Materia Medica, Clinical Science of Chinese Materia Medica and other TCM knowledge authority source data, based on ontological conceptual modeling method, this article confirmed the definition and connotation of Chinese materia medica, determined the concept properties, clarified the relationship between concepts, and initially completed the ontological modeling for core concepts of TCM sub-domain. Results The ontological modeling of key concepts such as “TCM”, “Chinese materia medica”, “TCM decoction pieces” and “TCM patent medicines” was completed. Conclusion The preliminary construction of TCM related core conceptual model is realized, which can provide reference for expressions and sharing of TCM knowledge in other sub-domains.

Keywords: TCM sub-domain; ontology; conceptual model

中医药领域信息知识表达、数据处理时,相关概念理解不一致,存在概念交叉、术语歧义、领域知识表达混乱情况。中医药同专业或跨专业交流时,因习惯用语不同,常出现理解偏差。如临床上脾胃科将“甘草”默认为“炙甘草”,而其他科室可能理解为“生甘草”;中医临床领域一般提及的中药名称为中药饮片,而其他领域可能理解为中药材或基源植物。

知识表达、概念建模是计算机信息抽取、数据库设计的基础,数据处理与利用时,计算机无法识别概念名称相同但表达内涵不同的情况,中药名称概念内涵有中药材和中药饮片,而其内涵属性不同。因此,应明确每个概念的内涵,确保其表达的准确性,避免概念交叉。在对中医药知识进行计算机处理时,必须解决概念和术语歧义问题;同时,数据库建模须基于统一明确的概念模型。这可为该领域本体构建提供基础,并指导规范数据库建模、术语消歧。

本体是哲学、计算机科学和信息科学之间的交叉学科。在哲学领域,本体是一门关于世界本原的学问,

它试图罗列世间万物,并对它们进行准确的定义和完善的分类。在计算机科学领域,本体则是一种用于表示领域知识的计算机模型,它定义了一组表示知识的“原语”,如类、属性和关系等[1]。信息科学中本体论的目标是确定领域内共同认可的词汇,并从不同层次的形式化模型上给出这些词汇和词汇间相互关系的明确定义,从而获取相关领域的知识,提供对该领域知识的共同理解[2]。本体的引入可为中药相关概念辨析与知识表达提供有效途径。1 中药知识解析1.1 相关概念的知识表达采用本体方法进行中药相关知识提取,可明确该领域知识的概念内涵,且提供共同认知。即将中药知识领域抽象成一个概念体系,在此体系中,明确描述概念内涵,确定概念属性,厘清概念与概念间的关系,并在中药领域取得共识。这个抽象的概念体系实际是建立在数据实例基础上的知识本体。其主要作用为丰富扩展现有中医药领域本体,促进中医药领域信息关联与融合,增强中医药领域知识的显性表达;对于数据库建模亦可提供规范术语及关系,指导规范建库。1.2 知识来源特点分析本研究以药典、国家标准、辞典、教材等为中药知识权威来源。课题组前期对中药核心概念描述进行总结梳理,体系基于本体思路进行解析[3]。2015年版《中华人民共和国药典》(一部) [4]中药部分主要描述中药材和饮片相关信息,如中药材的来源、性状、鉴别、检查、浸出物,饮片的炮制、性状、鉴别、检查、性味与归经、功能与主治、用法与用量、贮藏等。特点:将中药材与中药饮片进行了初步的区分,还需对其内涵以及二者关系进行明确和细化。《中药编码规则及编码》[5]为中药编码国家标准,对中药材、中药饮片、中药配方颗粒、中药超微饮片、中药超微配方颗粒等进行分类与编码,通过编码明确不同形态中药。特点:对中药、中药材、中药饮片、中药配方颗粒、中药超微饮片、中药超微配方颗粒、药用植物、草药术语进行定义,并制定编码规则。《中华本草》[6]、《中药大辞典》[7]为中药相关信息的汇总辞典,提供正名、异名、基原、原植(动、矿)物、栽培(饲养)、采收加工、药材、成分、药理、炮制、药性、功用主治、用法用量、宜忌、选方、临床报道、各家论述等描述信息。特点:描述内容详尽,可提供信息补充查询;但缺乏概念层次,无法对中药概念内涵进行区分判定。

《中药学》[8]、《临床中药学》[9]偏重临床中药学,

侧重描述中药基本理论及常用中药来源、产地、采集、炮制、药性、功效、应用、用法用量、使用注意、化学成分、药理作用、鉴别用药、不良反应等。特点:偏重于中药基本理论和常用中药的临床应用,但未对中药相关概念进行明确区分。

上述中药权威知识来源各具特点,通过对其核心概念体系分析,可为中药本体构建中核心概念、概念内涵、概念间关系确定提供支持。中药本体构建所涉及的中药理论体系需进行总结和概念化描述。2 中药本体构建的原则和方法针对复杂的中医药知识体系,构建本体需明确分析核心概念体系、确定构建基本原则、明确概念内涵,按照系统规范的流程进行。

构建原则包括:①清晰性。术语定义尽可能采用形式化公理描述,避免含糊不清。中药本体构建中的概念出自权威辞典和书籍,需在中医药领域被广泛认可,明确没有歧义的概念集合。②一致性。本体定义支持推理的一致性。中药本体在描述上必须是一致的,且可支持与其定义和公理相一致的有意义的推理。③可扩展性。概念表达仔细设计,考虑将来可能使用,本体可被线性扩展。中药本体在设计构建过程中,要充分考虑可能的扩展。

构建方法遵循“七步法”:①确定专业领域与范畴;②考察复用现有本体的可能性;③列出重要术语; ④定义类和类的等级关系;⑤定义类的属性;⑥定义属性的分面;⑦创建实例。3 中药本体构建步骤中药本体构建基本思路:按照“七步法”流程,明确中药专业领域包含的范围和基本核心框架涉及的范畴;充分调研和考察现有中药本体,考虑复用的可能性;列出中药领域核心术语,明确概念内涵;明确中药领域核心类的框架及关系;参照中药理论体系,结合专家咨询指导,建立各类属性及关系,创建实例,加工入系统。

3.1 领域与范畴

科技部“973 ”项目子课题中药理论框架构建

(2013CB532005)[10]提出中药学概念体系雏形。其明确了中药核心概念的层级关系,分为一级概念、二级概念和三级概念等,一级概念为大类“中药学”与“中药”,中药下含中药材、饮片和中成药;二级概念反映学科基本理论,如“道地药材”“功效”“性能” “七情”“炮制”等;其他则为基本概念。在该核心概念框架体系中,可明确中药材、饮片、中成药是中药概念体系的核心概念,与之相关的二级概念则可在

分析核心概念属性及相关类的设置方面提供参考。3.2 考察复用现有本体中医药学语言系统(TCMLS)是一个基于本体技术构建的大型计算机语言系统,共收录 12 万个中医药学概念及概念间的127 万条语义关系[11]。中药本体的构建可考虑重用TCMLS中的概念与关系,从而丰富本研究概念关系。

3.4 定义中药本体核心类及属性在中药本体核心概念内涵确立的基础上,进一步确定类的属性。对于具体中药核心概念,要分析确立其自身属性,并定义相关类的关系属性,关系属性代表了在领域中概念间的交互作用。

中药本体建模时,概念本身的属性需根据其内涵进行定义。①中药:抽象概念,核心在于中医药理论指导下使用的药物,包括各种形态的中药。②中药材:原料药材,来源于药用动、植、矿物,有药用部位,经初加工。③中药饮片:以中药材为原料药,加工炮制,用于临床和制剂生产,具有自己的规格、临床特性,现代技术影响下,饮片规格多样,具有多种形态。④中成药:复方或单方使用的成品药剂,饮片是它的原料药。根据对核心概念内涵分析,基本确立了“中药材”“中药饮片”“中成药”的自身属性,纳入具体实例信息,调整修改其属性内容,见图2~图 4。

3.3 本体核心概念框架体系构建基于本体思路,明确中药核心概念,确定结构体系与内涵属性,确定框架系统。依托“1.2”项中药领域权威资源,进行中药概念内涵辨析,构建本体概念模型。通过对中药概念体系调研与分析,得到中药领域的核心概念类,包括“中药”“中药材”“中药饮片” “中成药”等,核心框架见图1。

确定中药本体核心概念类后,对核心概念类进行扩展,建立概念的分层结构,即中药本体的概念整体框架模型。3.5 实例纳入中药本体概念体系的建立,使中药本体的框架架构基本显现。对具体的中药实例,根据各核心概念属性进行信息纳入,并遵循各类之间的关系。中药本体构建要具有实用性,实例的描述具有重要意义,手工输入添加实例,完善整个中药本体。本研究以中药麻黄为例,其药材、饮片及组成的中成药信息见图 5~图 7。

麻黄药材有3种来源:草麻黄、中麻黄和木贼麻黄,对于具体的中药材可分为3个,但中药材作为麻黄饮片的来源,需要抽提一个抽象概念来予以概括,即“麻黄”。而抽象概念“麻黄”作为麻黄中药材可与麻黄饮片关联。

麻黄饮片具有饮片的共同属性,如规格、药性、药味、归经、功能、主治等。而在临床中麻黄饮片有多种形态,如麻黄超微饮片、麻黄配方颗粒、麻黄超微配方颗粒等,这些具体的饮片形态可抽提出一个抽象概念来表示,即“麻黄饮片”。

麻黄可作为饮片组成多种中成药,如与细辛、桂枝、炙甘草等组成小青龙合剂。而小青龙合剂作为一种中成药,也具备中成药的共同属性,有其性状、功能、主治等。

结论中医药学是一个复杂且庞大的理论体系,中药学作为其中一个子领域,具有理论体系相对独立的特点。本研究选取中药学子领域作为研究对象,通过收集和梳理中药领域各种来源的数据,基于本体论的概念建模方法,明确中药概念内涵,确定概念属性,厘

清概念间的关系,初步完成了包括“中药”“中药材” “中药饮片”“中成药”等核心概念的本体建模。通过对中药概念模型的构建,明确了中药概念内涵及其关系,可为中药知识资源的知识构建和推理,以及中医药学其他子领域的知识表达和共享提供参考。

参考文献:

[1] LIU L, TAMERÖZSU M. Entry in the Encyclopedia of Database Systems[M]. New York:Springer US,2009:1784.

[2] 苏里,朱庆伟,陈宜金,等.基于地理本体的空间数据库概念建模[J].

计算机工程,2007,33(12):87-89.

[3] 刘丽红,贾李蓉,刘静,等.中药本体相关概念描述探讨[J].中国数字

医学,2016,11(2):90-92.

[4] 国家药典委员会.中华人民共和国药典:一部[M].北京:中国医药科

技出版社,2015.

[5] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.中药编码规则及编码:GB/T 31774-2015[S].北京:中国标准出

版社,2015.

[6] 南京中医药大学.中药大辞典[M].上海:上海科学技术出版社,2006.

[7] 国家中医药管理局《中华本草》编委会.中华本草精选本[M].上海:

上海科学技术出版社,1998.

[8] 钟赣生.中药学[M].北京:中国中医药出版社,2012.

[9] 张延模.临床中药学[M].北京:中国中医药出版社,2012.

[10] 杨敏,陈勇,张廷模,等.对中药学概念体系雏形构建的研究[J].中药

药理与临床,2015,31(6):215-217.

[11] 贾李蓉,朱玲,董燕,等.中医药学语言系统评价体系的研究与建立[J].

中国数字医学,2012,7(10):13-16.

(收稿日期:2017-09-19)

(修回日期:2017-11-30;编辑:向宇雁)

开放科学(资源服务)标识码(OSID)内含全文PDF和增强文件

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.