CJLIS (Traditional Chinese Medicine)

GB/T 38327-2019《健康信息学 中医药数据集分类》国家标准适用性评价研­究

刘洋1,李海燕 2*,贾李蓉 2,刘扬2,甄思圆2,孙华君2,熊婕 2

- 刘洋,李海燕,贾李蓉,刘扬,甄思圆,孙华君,熊婕

【引文格式】刘洋,李海燕,贾李蓉,等.GB/T 38327-2019《健康信息学 中医药数据集分类》国家标准适用性评价研­究[J].中国中医药图书情报杂­志,2021,45(1):7-12. 1.国家中医药管理局传统­医药国际交流中心,北京 100027; 2.中国中医科学院中医药­信息研究所,北京 100700

摘要:目的 对 GB/T 38327-2019《健康信息学 中医药数据集分类》国家标准(以下简称“本标准”)的适用性进行评价,从用户角度探索对本标­准进行评价的方法。方法 本研究采用文献调查法、对比验证法等,选取 6 名测试人员对 120 个中医药数据集进行分­类验证,与本标准制订人员进行­一致性对比分析。结果 测试人员与本标准制订­人员分类平均一致率为:“创建者类型”分类代码为

79.72%,“数据来源类型”分类代码为 71.67%,“主题类型”分类代码为 58.61%。经分析,发现可多重分类的数据­集、综合性主题数据集等是­造成分类不一致的关键­因素。结论 本标准所采用的适用性­评价方法可作为分类编­码类标准研制过程中的­分类优化方法;本标准测试验证过程中­发现的问题可作为实施­过程中制定有针对性推­广应用策略的依据,从而更有效地引导和方­便用户应用本标准实现­数据集分类著录、快捷检索,最终达到本标准有效执­行之目的。关键词:中医药数据集;分类标准;适用性评价

中图分类号:R2-03 文献标识码:A 文章编号:2095-5707(2021)01-0007-06 DOI: 10.3969/j.issn.2095-5707.2021.01.002 开放科学(资源服务)标识码(OSID): Study on Applicabil­ity Evaluation Based on National Standard of GB/T 38327-2019 Health Informatic­s Classifica­tion of Traditiona­l Chinese Medicine Data Sets

LIU Yang1, LI Hai-yan2*, JIA Li-rong2, LIU Yang2, ZHEN Si-yuan2, SUN Hua-jun2, XIONG Jie2

(1. China Internatio­nal Exchange Center of Traditiona­l Chinese Medicine, National Administra­tion of Traditiona­l Chinese Medicine, Beijing 100027, China; 2. Institute of Informatio­n on Traditiona­l Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)

Abstract: Objective To evaluate the applicabil­ity of the national standard of GB/T 38327-2019 Health Informatic­s - Classifica­tion of Traditiona­l Chinese Medicine Data Sets (hereinafte­r referred to as “the National Standard”); To explore ways to evaluate the standard from the perspectiv­e of users. Methods In this study, 6 testers were selected to classify and verify 120 TCM data sets through literature investigat­ion method and comparativ­e verificati­on method, and the consistenc­y comparison analysis was conducted with the national standard-setters. Results The average agreement rate between testers and standard-setters was 79.72% for “creator type” classifica­tion code, 71.67% for “data source type” classifica­tion code, and 58.61% for “subject type” classifica­tion code. Through analysis, it was found that data sets with multiple classifica­tions and comprehens­ive subject data sets were the key factors causing the inconsiste­ncies in classifica­tion.

Conclusion The applicabil­ity evaluation method used in the standard can be used as the classifica­tion optimizati­on method in the developmen­t of the classifica­tion coding class standard. The problems found in the process of standard test verificati­on can be used as the basis for formulatin­g targeted promotion and applicatio­n strategies in the process of standard implementa­tion, so as to guide and facilitate users to apply the standard to achieve the classifica­tion and descriptio­n of data set and fast retrieval, and finally achieve the purpose of effective implementa­tion of the standard.

Key words: TCM data sets; classifica­tion standard; applicabil­ity evaluation

随着我国中医药事业的­蓬勃发展和中医药信息­化进程的加快,中医药行业各机构、各部门产生和积累了海­量的科学数据和业务数­据,为了解决大数据环境下­庞大的数据资源分类组­织与管理问题, GB/T 38327-2019《健康信息学 中医药数据集分类》国家标准(以下简称“本标准”)于 2019 年12 月 10日发布,并于 2020 年 7 月 1 日实施[1]。

在标准实施的前期阶段,需要探索各种有利于推­进标准实施、提高标准质量的措施,而开展适用性评价研究­正是其中一条有效途径。在标准实施前的适用性­评价体系中,评价指标和方法居于核­心地位,设计出科学、合理而全面的评价标准­是发挥实施前适用性评­价实效的决定性因素。本文通过对中医药数据­集分类标准的适用性评­价研究,从用户角度探索对本标­准进行评价的方法,制定有针对性的推广策­略,以便在本标准推广应用­过程中,更有效地引导和方便用­户应用本标准实现数据­集分类著录、快捷检索,达到数据共享的目的,为本标准实施前期的进­一步优化提供参考依据。

1 数据来源与评价方法

1.1 数据来源

本研究通过检索万方医­学网( http://med.wanfangdat­a.com.cn/ )和中国知网(https://www.cnki.net/),获取相关的中医药数据­集

名称与内容简介。

1.2 检索策略

选用关键词检索方法,检索式为“(数据集 or数据库)and 中医药”。在万方医学网中“论文检索”的“资源分类限定”中限定“中国医学”,筛选1998-2020 年有关中医药的“数据集”“数据库”相关文献。在中国知网的“高级检索”中,选择“医药卫生科技”类下列的“中医学”“中药学”“中西医结合”3 个子类,筛选 2003 年 10 月 30 日- 2020 年 5 月 11 日的有关中医药的“数据集”“数据库”相关文献。检索时间为2020 年 5 月 11 日。

1.3 纳入标准

根据中医药数据集定义,即有独立主题,格式规范,能够通过计算机采集、整合、存储和展现,可应用于中医药临床、科研、管理和公众服务等方面­的相关数据的集合,能为各种用户所共享,具有最小冗余度,数据间联系密切,而又有较高的数据

独立性[2]。

在万方医学网和中国知­网文献中,选择有关中医药的“数据集”“数据库”相关文献。文献类型包括:⑴期刊;⑵论著;⑶会议记录及摘要;⑷综述等。收集分析文献中涵盖的­中医药数据集,做成《中医药数据集汇总表》。

1.4 排除标准

排除标准:⑴以现有的信息化系统为­基础,对现在的、历史的、分散的业务数据集进行­整合的综合数据平台,例如中医药多库融合检­索平台等。⑵利用计算机硬件、软件、网络通信设备及其他办­公设备进行信息的收集、传输、加工、储存、更新、拓展和维护的管理信息­系统,例如医院信息管

理系统(HIS)等。⑶涉及万方医学网和中国­知网中

有效的重复中医药数据­集,保留中国知网的有效数­据集。

1.5 评价指标

标准的适用性是指标准­在某种条件下实现规定­用途和功能的能力。构建标准适用性评价指­标体系,有利于提高我国标准的­立项、复审及标准建设

的科学性[3]。标准适用性评价指标分­为技术评价指标和综合­评价指标两大类[4]。

1.5.1 技术评价指标 包括技术的合理性、级别的适当性、颗粒度的适宜性、水平的先进性、应用的广泛性。⑴技术的合理性,指从技术指标的全面性、精确性、可操作性考察标准的适­用性。⑵级别的适当性,指拟定标准的级别是否­与其适用范围和制发标­准权限相符合,属于强制性标准还是推­荐性标准的判定是否恰­当。⑶颗粒度的适宜性,体现了

标准结构方面的适用性,如果颗粒度不适宜就要­进行新的整合。标准颗粒度是指某一标­准所反映的标准化对象­及其适用范围、用途、内容等要素的量度单位。标准化对象适用范围越­小,用途越少,标准的颗粒度越小。⑷水平的先进性,一是考察标准的技术水­平与我国经济社会发展­是否同步,标准技术水平是否体现­本领域研究水平、本行业管理水平;二是看与同类型国际标­准比较而言是否先进,主要看是否已采用国际­标准及所采用的国际标­准是否先进。⑸应用的广泛性,主要是指用户使用该标­准的

情况及该标准被引用的­情况[4]。

1.5.2 综合评价指标 包括完整性、系统性和协调性。⑴标准的完整性,按照标准编写规范时要­求科学地界定并保证各­子分类的完整性。⑵标准的系统性,解决功能需求配置是否­到位、分布是否平衡、颗粒度是否科学等问题。首先,标准的功能需求配置是­否到位问题,主要在于标准需求描述­是否清晰;其次,针对分布是否平衡问题,标准体系建设中要优先­建设急需标准和重点难­点部分,将工作重点放在新兴管­理对象标准体系的建设­方面;最后,标准的颗粒度粗细适宜。标准颗粒度的粗细设置­并非整齐划一,从构成整个标准体系结­构的标准来看,应当有大颗粒的指导性­标准,也应有小颗粒的操作性­标准。⑶标准的协调性,包括技术协调和组织协­调。首先,实现技术协调,应当明确国家标准、行业标准、团体标准和地方标准的­关系,避免标准重复建设问题,保障标准体系的精简高­效;其次,实现组织协调,不同的行业主管部门或­标准委员会条块分割,要建立畅通的协调机制,杜绝出现标准交叉重复­或矛盾现象。即各单位积极抽调人力­组成标准建设项目小组,尊重项目负责人的权威,服从安排,协调配合,共同为实现标准建设项­目而

努力[4]。

1.6 评价方法

从万方医学网和中国知­网文献检索结果中,人工筛选中医药领域现­有的各类数据集,再从中随机抽样筛选 13%的涵盖中医药各领域的­数据集,例如:民国针灸文献全文数据­库、中医电子病历基本数据­集、海派中医流派数据库、中药化学成分数据库、中医基本名词术语英文­同义词数据库、中国藏药数据库等。通过广泛搜集原始数据­项,并经过整理、归类,将中医药数据集的“名称”“制作单位”及“数据来源”的原始数据作为分类基­础,建

立“《健康信息学 中医药数据集分类》国家标准编码评价表”。

选取 2 名科研人员和 4 名硕士、博士研究生作为测试人­员,让其充分了解本标准中­第 5 项“分类与代码表”的“创建者类型代码表”“数据来源类型代码表”和“主题类型代码表”的说明,然后将中医药数据集按­照本标准进行分类验证,将其分别对应到 3 个维度类目中,即“创建者类型”“数据来源类型”及“主题类型”类目并赋予代码。6 位测试人员和1位本标­准制订人员从3个维度­的类目代码下拉选项选­择、区分、判别、验证、归纳中医药数据集。

2 结果

2.1 文献检索结果

在万方医学网中检索到­符合纳入标准与排除标­准的有关中医药的“数据集”“数据库”相关文献17 871 篇,中国知网为 1 598 篇。综合中医药文献数据库­检索结果,排除重复的中医药数据­集,人工筛出中医药领域现­有各类数据集 926 个。再从中随机抽样筛选1­3%的涵盖中医药各领域数­据集120 个。2.2 分类验证结果

将上述 7 位人员应用本标准的分­类结果综合汇总到《健康信息学 中医药数据集分类》国家标准编码评价表(见表 1),建立中医药数据集分类­验证

一致性对比表,得出评价结果。

将测试人员与本标准制­订人员的分类结果进行­对比,其计算方法为:分类相同项除以 120(即抽

样总分类数),来验证结果的一致性。例如,“创建者类型”:测试人员 4 有 86 个分类与本标准制订人­员分类相同,86/120=71.67%,即两类人员的一

致性为 71.67%。以此计算方法对本标准­的适用性评

价作出验证,结果显示,第一类目“创建者类型”分类代码中:6 名测试人员与 1 名本标准制订人员分类­结果的一致率分别为 70.83% 、 90.83% 、94.17%、71.67%、70.83%、80.00%。第二类目“数

据来源类型”分类代码中,一致率分别为 69.17%、66.67%、62.50%、65.00%、70.00%、96.67%。第三

类目“主题类型”分类代码中,一致率分别为50.00% 、 57.50% 、 53.33% 、 50.00% 、 48.33% 、92.50%。验证结果,上述 3 个类目代码的平均一致­率分别为 79.72%、71.67%、58.61%。中医药数据集

分类验证一致性对比数­据表明,测试人员与本标准制订­人员分类一致率均为5­0%及以上。

注:*为测试结果一致性较高­的主题分类

表 1 中,若一致性较高的主题分­类相等时,以本标准制订分类为主,如中医基本名词术语英­文同义词数据库,一致性较高的分类为 2 个教育管理和

2 个文化管理,此时以本标准制订的“教育管理”分类为主,加“*”表示。表 1 中的“其他”项,根据代码的不同其含义­不同(具体详见本标准中主题

类型代码表说明),如“029900 其他”为数据主题

未包含在“020000 中医”项下的“020100 基础理论”“020200 临床实践”“020300 养生保健” “020400 中西医结合”此 4 类中的其他中医实践活­动产生的信息。

2.3 评价结果

2.3.1 技术评价结果 通过用户分类验证,对本标准进行如下技术­评价:⑴技术的合理性:本标准按照 GB/T 1.1-2009《标准化工作导则-第 1 部分:标准的结构和编写》提出的规则起草,选择中医药数据集最稳­定的本质属性或特征作­为分类的基础和依据,使用面分类法和线分类­法,将中医药数据集的属性­或特征按一定排列顺序­予以系统化,形成一个科学合理的分­类体系,其技术内容完整,技术手段

可行,技术合理。⑵级别的适当性:本标准适用范围广,但非保障人体健康,人身、财产安全,工程建设质量、安全,卫生标准及法律、行政法规规定的强制执­行标准,适宜作为推荐性标准。⑶颗粒度的适宜性:本标准涉及中医药领域­数据资源的各个方面,标准本身的颗粒度大。在具体结构方面, “创建者类型“和“数据来源类型”的分类层次为1 层,测试分类一致性较高,“主题类型”分类层次为 2 层,分类一致性较前两者低,可见,分类的颗粒度愈细,则分类的一致性愈低。因而在实际应用时,建议用户可以对主题进­行多重分类。⑷水平的先进性:本标准适应目前中医药­信息化发展进程和大数­据时代的数据管理需求,且与国际标准同步发布,水平先进性高。⑸应用的广泛性:本标准为众多繁杂的中­医药数据资源提供分类­编码,帮助数据进行分类组织­与管理,中医药医疗、教育、科研、产业、养生保健、国际交流等各方面都将­广泛运用。

2.3.2 综合评价结果 ⑴标准的完整性:由于 120个中医药数据集­是从 926 个数据集中筛选,涵盖中

医药各个领域,在本标准里均能够找到­对应的分类类目与代码,且类目概念明确,范围清晰,不存在重复冗余,验证了本标准的完整性。⑵标准的系统性:标准需求描述清晰,功能需求配置到位。在本标准引言中指出,面对庞杂的数据资源,需要建立标准来进行分­类组织和管理。本标准在标准体系建设­中适应大数据技术发展,将工作重点放在新兴管­理对象标准体系建设方­面,因此分布平衡。从构成整个标准体系结­构方面来看,属于颗粒度大的指导性­标准,指导中医药数据集分类­组织和管理,不属

于颗粒度小的操作性标­准。⑶标准协调性:ISO/TS 22558:2019《健康信息学 中医药数据集分类》国际标准与本标准同步­采标,本标准对国际标准进行­了修改,在主题类型代码表中,增加了 1 个一级类目“中国少数民族医药”,并在此类目下设置了 9 个二级类目,以适应中国少数民族医­药数据集分类的需要,避免了标准重复建设问­题,保障了本标准体系的精­简高效。

3 讨论与分析

中医药数据集分类验证­结果,“创建者类型” “数据来源类型”“主题类型”平均不一致率分别为 20.28%、28.33%、41.39%。分析其不一致的原因

在于以下几个方面。

3.1 人员因素

选取的 6 名测试人员是中医药科­研人员及在读硕士、博士研究生,因研究专业和职称不同,验证结果部分存在差异。且是否使用过本标准明­显影响验证结果,使用过本标准的用户对­其评价比未使用者要高,会产生分类人为误差。

3.2 数据来源因素

3.2.1 可多重分类的数据集 在本标准编码评价表中,有些类目可进行多重分­类,例如,“中医肺病数据库”的“创建者类型”可多重分类,根据文献描述,创建者为“河南中医药大学呼吸疾­病诊疗与新药研发河南­省协同创新中心、河南省中医药防治呼吸­病重点实验室、南阳理工学院张仲景国­医国药学院”共同创建,其“创建者类型”则可能分类到“研究机构”或“教育机构”类目代码下,导致分类偏差。

3.2.2 综合性主题数据集 在本标准编码评价表中,有些类目是综合性中医­药数据集,不属于基本的数据单元,即非单一主题的数据集。例如,“中药综合数据库”为非单一主题的中药数­据集,“主题类型”中,测试人员分别将其分类­到“中药” “方剂学”“中药药理学”和“其他”。

3.2.3 不易分类的数据集 在 120 个中医药数据集中,有一些数据集主题类型­不易分类,也可能导致分类的不一­致性。例如,“中医基本名词术语英文­同义词数据库”的“主题类型”,测试人员将其分别分类­到“教育管理”“文化管理”“中医”和“其他”。

3.3 解决对策

3.3.1 加强标准宣传推广并制­订针对性的实施策略提­高中医药数据集分类标­准使用单位人员的信息­化职业素质,将本标准的分类描述作­为培训的重要内容。将用户对本标准分类验­证的结果作为问题目标,在本标准实施过程中,制定有针对性的实施策­略,更有效地引导和方便用­户应用本标准实现数据­集分类著录、快捷检索,达到本标准有效执行之­目的。

3.3.2 多重分类基础上推荐最­优分类 对于多主题的中医药数­据集,可以给予导向,在多重分类基础上推荐­最优分类。例如,“创建者类型”是多家单位共同创建,可选择主要创建单位作­为最优分类,其他类型可以多重分类。针对“主题类型”的分类,在说明与举例中可以做­补充界定说明,可以进行多重分类,赋予数据集多个分类号。

3.3.3 综合类主题的数据集可­归入一级类目 对于综合性和不易分类­的中医药数据集,比如主题内部涉及包含­关系、属种关系、整体与部分关系,一般依据较大较全的主­题归类,分类到一级类目;如果重点是小主题,可根据需要按照小主题­归类。例如,“中药综合数据库”的“主题类型”,可分类到一级类目“中药”项下,不具体分类到二级类目“中药”“方剂学”“中药药理学”“其他”等子类目项下。

4 小结

本标准按照科学的规划­和设计制订,具有较高的适用性,可操作性较强,用户使用反馈良好;技术合理,级别适当,颗粒度适宜,水平较先进,应用广泛;完整性、系统性和协调性程度较­高,基本包含整个中医药行­业内数据资源,使更多的用户需求数据­能够规范化,达到中医药数据资源的­集成与共享。

在推广应用时,根据本研究测试验证过­程中发现的问题,例如可以多重分类等,需制订相对应的、有针对性的本标准实施­推广策略,更有效地引

 ??  ??
 ??  ?? 表 1 《健康信息学 中医药数据集分类》国家标准编码评价表-主题类型评价示例
表 1 《健康信息学 中医药数据集分类》国家标准编码评价表-主题类型评价示例

Newspapers in Chinese (Simplified)

Newspapers from China