CJLIS (Traditional Chinese Medicine)
GB/T 38327-2019《健康信息学 中医药数据集分类》国家标准适用性评价研究
刘洋1,李海燕 2*,贾李蓉 2,刘扬2,甄思圆2,孙华君2,熊婕 2
【引文格式】刘洋,李海燕,贾李蓉,等.GB/T 38327-2019《健康信息学 中医药数据集分类》国家标准适用性评价研究[J].中国中医药图书情报杂志,2021,45(1):7-12. 1.国家中医药管理局传统医药国际交流中心,北京 100027; 2.中国中医科学院中医药信息研究所,北京 100700
摘要:目的 对 GB/T 38327-2019《健康信息学 中医药数据集分类》国家标准(以下简称“本标准”)的适用性进行评价,从用户角度探索对本标准进行评价的方法。方法 本研究采用文献调查法、对比验证法等,选取 6 名测试人员对 120 个中医药数据集进行分类验证,与本标准制订人员进行一致性对比分析。结果 测试人员与本标准制订人员分类平均一致率为:“创建者类型”分类代码为
79.72%,“数据来源类型”分类代码为 71.67%,“主题类型”分类代码为 58.61%。经分析,发现可多重分类的数据集、综合性主题数据集等是造成分类不一致的关键因素。结论 本标准所采用的适用性评价方法可作为分类编码类标准研制过程中的分类优化方法;本标准测试验证过程中发现的问题可作为实施过程中制定有针对性推广应用策略的依据,从而更有效地引导和方便用户应用本标准实现数据集分类著录、快捷检索,最终达到本标准有效执行之目的。关键词:中医药数据集;分类标准;适用性评价
中图分类号:R2-03 文献标识码:A 文章编号:2095-5707(2021)01-0007-06 DOI: 10.3969/j.issn.2095-5707.2021.01.002 开放科学(资源服务)标识码(OSID): Study on Applicability Evaluation Based on National Standard of GB/T 38327-2019 Health Informatics Classification of Traditional Chinese Medicine Data Sets
LIU Yang1, LI Hai-yan2*, JIA Li-rong2, LIU Yang2, ZHEN Si-yuan2, SUN Hua-jun2, XIONG Jie2
(1. China International Exchange Center of Traditional Chinese Medicine, National Administration of Traditional Chinese Medicine, Beijing 100027, China; 2. Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)
Abstract: Objective To evaluate the applicability of the national standard of GB/T 38327-2019 Health Informatics - Classification of Traditional Chinese Medicine Data Sets (hereinafter referred to as “the National Standard”); To explore ways to evaluate the standard from the perspective of users. Methods In this study, 6 testers were selected to classify and verify 120 TCM data sets through literature investigation method and comparative verification method, and the consistency comparison analysis was conducted with the national standard-setters. Results The average agreement rate between testers and standard-setters was 79.72% for “creator type” classification code, 71.67% for “data source type” classification code, and 58.61% for “subject type” classification code. Through analysis, it was found that data sets with multiple classifications and comprehensive subject data sets were the key factors causing the inconsistencies in classification.
Conclusion The applicability evaluation method used in the standard can be used as the classification optimization method in the development of the classification coding class standard. The problems found in the process of standard test verification can be used as the basis for formulating targeted promotion and application strategies in the process of standard implementation, so as to guide and facilitate users to apply the standard to achieve the classification and description of data set and fast retrieval, and finally achieve the purpose of effective implementation of the standard.
Key words: TCM data sets; classification standard; applicability evaluation
随着我国中医药事业的蓬勃发展和中医药信息化进程的加快,中医药行业各机构、各部门产生和积累了海量的科学数据和业务数据,为了解决大数据环境下庞大的数据资源分类组织与管理问题, GB/T 38327-2019《健康信息学 中医药数据集分类》国家标准(以下简称“本标准”)于 2019 年12 月 10日发布,并于 2020 年 7 月 1 日实施[1]。
在标准实施的前期阶段,需要探索各种有利于推进标准实施、提高标准质量的措施,而开展适用性评价研究正是其中一条有效途径。在标准实施前的适用性评价体系中,评价指标和方法居于核心地位,设计出科学、合理而全面的评价标准是发挥实施前适用性评价实效的决定性因素。本文通过对中医药数据集分类标准的适用性评价研究,从用户角度探索对本标准进行评价的方法,制定有针对性的推广策略,以便在本标准推广应用过程中,更有效地引导和方便用户应用本标准实现数据集分类著录、快捷检索,达到数据共享的目的,为本标准实施前期的进一步优化提供参考依据。
1 数据来源与评价方法
1.1 数据来源
本研究通过检索万方医学网( http://med.wanfangdata.com.cn/ )和中国知网(https://www.cnki.net/),获取相关的中医药数据集
名称与内容简介。
1.2 检索策略
选用关键词检索方法,检索式为“(数据集 or数据库)and 中医药”。在万方医学网中“论文检索”的“资源分类限定”中限定“中国医学”,筛选1998-2020 年有关中医药的“数据集”“数据库”相关文献。在中国知网的“高级检索”中,选择“医药卫生科技”类下列的“中医学”“中药学”“中西医结合”3 个子类,筛选 2003 年 10 月 30 日- 2020 年 5 月 11 日的有关中医药的“数据集”“数据库”相关文献。检索时间为2020 年 5 月 11 日。
1.3 纳入标准
根据中医药数据集定义,即有独立主题,格式规范,能够通过计算机采集、整合、存储和展现,可应用于中医药临床、科研、管理和公众服务等方面的相关数据的集合,能为各种用户所共享,具有最小冗余度,数据间联系密切,而又有较高的数据
独立性[2]。
在万方医学网和中国知网文献中,选择有关中医药的“数据集”“数据库”相关文献。文献类型包括:⑴期刊;⑵论著;⑶会议记录及摘要;⑷综述等。收集分析文献中涵盖的中医药数据集,做成《中医药数据集汇总表》。
1.4 排除标准
排除标准:⑴以现有的信息化系统为基础,对现在的、历史的、分散的业务数据集进行整合的综合数据平台,例如中医药多库融合检索平台等。⑵利用计算机硬件、软件、网络通信设备及其他办公设备进行信息的收集、传输、加工、储存、更新、拓展和维护的管理信息系统,例如医院信息管
理系统(HIS)等。⑶涉及万方医学网和中国知网中
有效的重复中医药数据集,保留中国知网的有效数据集。
1.5 评价指标
标准的适用性是指标准在某种条件下实现规定用途和功能的能力。构建标准适用性评价指标体系,有利于提高我国标准的立项、复审及标准建设
的科学性[3]。标准适用性评价指标分为技术评价指标和综合评价指标两大类[4]。
1.5.1 技术评价指标 包括技术的合理性、级别的适当性、颗粒度的适宜性、水平的先进性、应用的广泛性。⑴技术的合理性,指从技术指标的全面性、精确性、可操作性考察标准的适用性。⑵级别的适当性,指拟定标准的级别是否与其适用范围和制发标准权限相符合,属于强制性标准还是推荐性标准的判定是否恰当。⑶颗粒度的适宜性,体现了
标准结构方面的适用性,如果颗粒度不适宜就要进行新的整合。标准颗粒度是指某一标准所反映的标准化对象及其适用范围、用途、内容等要素的量度单位。标准化对象适用范围越小,用途越少,标准的颗粒度越小。⑷水平的先进性,一是考察标准的技术水平与我国经济社会发展是否同步,标准技术水平是否体现本领域研究水平、本行业管理水平;二是看与同类型国际标准比较而言是否先进,主要看是否已采用国际标准及所采用的国际标准是否先进。⑸应用的广泛性,主要是指用户使用该标准的
情况及该标准被引用的情况[4]。
1.5.2 综合评价指标 包括完整性、系统性和协调性。⑴标准的完整性,按照标准编写规范时要求科学地界定并保证各子分类的完整性。⑵标准的系统性,解决功能需求配置是否到位、分布是否平衡、颗粒度是否科学等问题。首先,标准的功能需求配置是否到位问题,主要在于标准需求描述是否清晰;其次,针对分布是否平衡问题,标准体系建设中要优先建设急需标准和重点难点部分,将工作重点放在新兴管理对象标准体系的建设方面;最后,标准的颗粒度粗细适宜。标准颗粒度的粗细设置并非整齐划一,从构成整个标准体系结构的标准来看,应当有大颗粒的指导性标准,也应有小颗粒的操作性标准。⑶标准的协调性,包括技术协调和组织协调。首先,实现技术协调,应当明确国家标准、行业标准、团体标准和地方标准的关系,避免标准重复建设问题,保障标准体系的精简高效;其次,实现组织协调,不同的行业主管部门或标准委员会条块分割,要建立畅通的协调机制,杜绝出现标准交叉重复或矛盾现象。即各单位积极抽调人力组成标准建设项目小组,尊重项目负责人的权威,服从安排,协调配合,共同为实现标准建设项目而
努力[4]。
1.6 评价方法
从万方医学网和中国知网文献检索结果中,人工筛选中医药领域现有的各类数据集,再从中随机抽样筛选 13%的涵盖中医药各领域的数据集,例如:民国针灸文献全文数据库、中医电子病历基本数据集、海派中医流派数据库、中药化学成分数据库、中医基本名词术语英文同义词数据库、中国藏药数据库等。通过广泛搜集原始数据项,并经过整理、归类,将中医药数据集的“名称”“制作单位”及“数据来源”的原始数据作为分类基础,建
立“《健康信息学 中医药数据集分类》国家标准编码评价表”。
选取 2 名科研人员和 4 名硕士、博士研究生作为测试人员,让其充分了解本标准中第 5 项“分类与代码表”的“创建者类型代码表”“数据来源类型代码表”和“主题类型代码表”的说明,然后将中医药数据集按照本标准进行分类验证,将其分别对应到 3 个维度类目中,即“创建者类型”“数据来源类型”及“主题类型”类目并赋予代码。6 位测试人员和1位本标准制订人员从3个维度的类目代码下拉选项选择、区分、判别、验证、归纳中医药数据集。
2 结果
2.1 文献检索结果
在万方医学网中检索到符合纳入标准与排除标准的有关中医药的“数据集”“数据库”相关文献17 871 篇,中国知网为 1 598 篇。综合中医药文献数据库检索结果,排除重复的中医药数据集,人工筛出中医药领域现有各类数据集 926 个。再从中随机抽样筛选13%的涵盖中医药各领域数据集120 个。2.2 分类验证结果
将上述 7 位人员应用本标准的分类结果综合汇总到《健康信息学 中医药数据集分类》国家标准编码评价表(见表 1),建立中医药数据集分类验证
一致性对比表,得出评价结果。
将测试人员与本标准制订人员的分类结果进行对比,其计算方法为:分类相同项除以 120(即抽
样总分类数),来验证结果的一致性。例如,“创建者类型”:测试人员 4 有 86 个分类与本标准制订人员分类相同,86/120=71.67%,即两类人员的一
致性为 71.67%。以此计算方法对本标准的适用性评
价作出验证,结果显示,第一类目“创建者类型”分类代码中:6 名测试人员与 1 名本标准制订人员分类结果的一致率分别为 70.83% 、 90.83% 、94.17%、71.67%、70.83%、80.00%。第二类目“数
据来源类型”分类代码中,一致率分别为 69.17%、66.67%、62.50%、65.00%、70.00%、96.67%。第三
类目“主题类型”分类代码中,一致率分别为50.00% 、 57.50% 、 53.33% 、 50.00% 、 48.33% 、92.50%。验证结果,上述 3 个类目代码的平均一致率分别为 79.72%、71.67%、58.61%。中医药数据集
分类验证一致性对比数据表明,测试人员与本标准制订人员分类一致率均为50%及以上。
注:*为测试结果一致性较高的主题分类
表 1 中,若一致性较高的主题分类相等时,以本标准制订分类为主,如中医基本名词术语英文同义词数据库,一致性较高的分类为 2 个教育管理和
2 个文化管理,此时以本标准制订的“教育管理”分类为主,加“*”表示。表 1 中的“其他”项,根据代码的不同其含义不同(具体详见本标准中主题
类型代码表说明),如“029900 其他”为数据主题
未包含在“020000 中医”项下的“020100 基础理论”“020200 临床实践”“020300 养生保健” “020400 中西医结合”此 4 类中的其他中医实践活动产生的信息。
2.3 评价结果
2.3.1 技术评价结果 通过用户分类验证,对本标准进行如下技术评价:⑴技术的合理性:本标准按照 GB/T 1.1-2009《标准化工作导则-第 1 部分:标准的结构和编写》提出的规则起草,选择中医药数据集最稳定的本质属性或特征作为分类的基础和依据,使用面分类法和线分类法,将中医药数据集的属性或特征按一定排列顺序予以系统化,形成一个科学合理的分类体系,其技术内容完整,技术手段
可行,技术合理。⑵级别的适当性:本标准适用范围广,但非保障人体健康,人身、财产安全,工程建设质量、安全,卫生标准及法律、行政法规规定的强制执行标准,适宜作为推荐性标准。⑶颗粒度的适宜性:本标准涉及中医药领域数据资源的各个方面,标准本身的颗粒度大。在具体结构方面, “创建者类型“和“数据来源类型”的分类层次为1 层,测试分类一致性较高,“主题类型”分类层次为 2 层,分类一致性较前两者低,可见,分类的颗粒度愈细,则分类的一致性愈低。因而在实际应用时,建议用户可以对主题进行多重分类。⑷水平的先进性:本标准适应目前中医药信息化发展进程和大数据时代的数据管理需求,且与国际标准同步发布,水平先进性高。⑸应用的广泛性:本标准为众多繁杂的中医药数据资源提供分类编码,帮助数据进行分类组织与管理,中医药医疗、教育、科研、产业、养生保健、国际交流等各方面都将广泛运用。
2.3.2 综合评价结果 ⑴标准的完整性:由于 120个中医药数据集是从 926 个数据集中筛选,涵盖中
医药各个领域,在本标准里均能够找到对应的分类类目与代码,且类目概念明确,范围清晰,不存在重复冗余,验证了本标准的完整性。⑵标准的系统性:标准需求描述清晰,功能需求配置到位。在本标准引言中指出,面对庞杂的数据资源,需要建立标准来进行分类组织和管理。本标准在标准体系建设中适应大数据技术发展,将工作重点放在新兴管理对象标准体系建设方面,因此分布平衡。从构成整个标准体系结构方面来看,属于颗粒度大的指导性标准,指导中医药数据集分类组织和管理,不属
于颗粒度小的操作性标准。⑶标准协调性:ISO/TS 22558:2019《健康信息学 中医药数据集分类》国际标准与本标准同步采标,本标准对国际标准进行了修改,在主题类型代码表中,增加了 1 个一级类目“中国少数民族医药”,并在此类目下设置了 9 个二级类目,以适应中国少数民族医药数据集分类的需要,避免了标准重复建设问题,保障了本标准体系的精简高效。
3 讨论与分析
中医药数据集分类验证结果,“创建者类型” “数据来源类型”“主题类型”平均不一致率分别为 20.28%、28.33%、41.39%。分析其不一致的原因
在于以下几个方面。
3.1 人员因素
选取的 6 名测试人员是中医药科研人员及在读硕士、博士研究生,因研究专业和职称不同,验证结果部分存在差异。且是否使用过本标准明显影响验证结果,使用过本标准的用户对其评价比未使用者要高,会产生分类人为误差。
3.2 数据来源因素
3.2.1 可多重分类的数据集 在本标准编码评价表中,有些类目可进行多重分类,例如,“中医肺病数据库”的“创建者类型”可多重分类,根据文献描述,创建者为“河南中医药大学呼吸疾病诊疗与新药研发河南省协同创新中心、河南省中医药防治呼吸病重点实验室、南阳理工学院张仲景国医国药学院”共同创建,其“创建者类型”则可能分类到“研究机构”或“教育机构”类目代码下,导致分类偏差。
3.2.2 综合性主题数据集 在本标准编码评价表中,有些类目是综合性中医药数据集,不属于基本的数据单元,即非单一主题的数据集。例如,“中药综合数据库”为非单一主题的中药数据集,“主题类型”中,测试人员分别将其分类到“中药” “方剂学”“中药药理学”和“其他”。
3.2.3 不易分类的数据集 在 120 个中医药数据集中,有一些数据集主题类型不易分类,也可能导致分类的不一致性。例如,“中医基本名词术语英文同义词数据库”的“主题类型”,测试人员将其分别分类到“教育管理”“文化管理”“中医”和“其他”。
3.3 解决对策
3.3.1 加强标准宣传推广并制订针对性的实施策略提高中医药数据集分类标准使用单位人员的信息化职业素质,将本标准的分类描述作为培训的重要内容。将用户对本标准分类验证的结果作为问题目标,在本标准实施过程中,制定有针对性的实施策略,更有效地引导和方便用户应用本标准实现数据集分类著录、快捷检索,达到本标准有效执行之目的。
3.3.2 多重分类基础上推荐最优分类 对于多主题的中医药数据集,可以给予导向,在多重分类基础上推荐最优分类。例如,“创建者类型”是多家单位共同创建,可选择主要创建单位作为最优分类,其他类型可以多重分类。针对“主题类型”的分类,在说明与举例中可以做补充界定说明,可以进行多重分类,赋予数据集多个分类号。
3.3.3 综合类主题的数据集可归入一级类目 对于综合性和不易分类的中医药数据集,比如主题内部涉及包含关系、属种关系、整体与部分关系,一般依据较大较全的主题归类,分类到一级类目;如果重点是小主题,可根据需要按照小主题归类。例如,“中药综合数据库”的“主题类型”,可分类到一级类目“中药”项下,不具体分类到二级类目“中药”“方剂学”“中药药理学”“其他”等子类目项下。
4 小结
本标准按照科学的规划和设计制订,具有较高的适用性,可操作性较强,用户使用反馈良好;技术合理,级别适当,颗粒度适宜,水平较先进,应用广泛;完整性、系统性和协调性程度较高,基本包含整个中医药行业内数据资源,使更多的用户需求数据能够规范化,达到中医药数据资源的集成与共享。
在推广应用时,根据本研究测试验证过程中发现的问题,例如可以多重分类等,需制订相对应的、有针对性的本标准实施推广策略,更有效地引