CJLIS (Traditional Chinese Medicine)
MIMICⅢ数据库特征分析及对构建共享中医数据集的启示
【引文格式】周蜜果,张平,窦丹波,等.MIMICⅢ数据库特征分析及对构建共享中医数据集的启示[J].中国中医药图书情报杂志, 2019,43(6):1-5.周蜜果 1 ,张平 2 ,窦丹波 2*,冯佳 1 ,刘宁远1 ,成福春1 ,朱亮 1 1.上海中医药大学附属岳阳中西医结合医院,上海 200437;2.上海中医药大学附属曙光医院,上海 201203
摘要:本文对重症监护医学信息集市Ⅲ (MIMICⅢ数据库)的数据构成和特征内容进行分析,梳理了研究者基于该数据库的研究主题分布、代码知识库的共享模式及脚本内容、隐私数据的处理和多层保护机制,认为 MIMICⅢ数据库的技术和管理模式适用于类似医疗信息的处理,如注重隐私的处理、对于主索引的确立及各类代码的统一、促进源代码的共享等,对构建共享中医数据集具有参考意义。关键词: MIMICⅢ数据库;代码共享;中医数据集
DOI: 10.3969/j.issn.2095-5707.2019.06.001
中图分类号: R197.324;G353.1 文献标识码: A 文章编号: 2095-5707(2019)06-0001-05
随着医院信息系统的不断完善,医疗数据的获取和再利用的效率成为医疗健康大数据的焦点,医生和科研人员通过对这些信息的检索整合,可以获
得科研成果或者用于临床决策支持。中医科室基于实际业务建立了大量的专科数据集,数据集的质量直接影响到数据的使用效果。本文旨在通过对国际通用度较高的医学信息数据库的数据特征及运行模式进行研究,为构建中医数据集提供参考,使其能更好地、有针对性地支持临床数据挖掘及临床决策。1 MIMICⅢ数据库概况
2003 年,美国贝斯以色列女执事医疗中心
( Beth Israel Deaconess Medical Center,以下简称“医疗中心”)、麻省理工( MIT)、麻省总医院( MGH)和英国牛津大学的急诊科医生、重症科医生、计算机科学专家等共同建立了一个数据库,该数据库在建立之初的名字为 Multiparameter Intelligent Monitoring in Intensive Care Ⅱ,简写为MIMICⅡ。2016 年 9 月, MIMICⅡ数据库升级为MIMICⅢ数据库,并改名为 Medical Information Mart for Intensive Care,直译为重症监护医学信息集市,简写仍然是MIMIC。
目前 MIMIC Ⅲ数据库最新的版本是 1.4 ( V1.4),包含了 2001 年 6 月- 2012 年 10 月在医疗中心住院的 38 645 名成年个体(非新生儿)和7 875 名新生儿(出生至 28 天)的 58 000 余次住院临床诊疗信息。这些资料被整理成了 26 张 CSV 格式(以纯文本的形式存储表格数据,包括数字和文本)的表格供研究者查询[ 1],为流行病学的分析性研究、临床决策的发展及医学电子设备的研发提供
[2]了更多样的方法和思路 。
2 MIMICⅢ数据库内容
2.1 MIMICⅢ数据库的表结构
MIMICⅢ数据库有 26 张表格,其中5 张为辅助字典表(包括医疗项目、诊断、手术操作、指标项目、实验室项目对应代码),余下 21 张都是患者住院期间的各项临床数据,其中检验记录表( Chartevents)是内存最大的一张表格,达到 30 多个 G,由于数据量过大,这一张表在导入数据库时2.1.4 影像学检查结果、医嘱、全面的实验室检验结果 例如,血生化、血常规、动脉血气、尿常规、微生物检查等。除了影像学检查结果是以文本描述的形式存储,其他实验室检验结果均是结构化的数据。
2.1.5 患者用药记录信息 每位患者用药的开始及结束时间、药品名称、规格单位、药品类型(主、
被拆分为 18 张。在研究中,较为常用的 MIMICⅢ数据库的信息主要有以下几类。
2.1.1 基本信息 患者的人口统计学资料(如性别、种族、婚姻状况等),以及出入院、病区转换等基本信息。年龄没有直接记载,但可以通过出生日期和入院日期之差计算得出。这些基本信息可用于研究初期,在样本中筛选出类似性质的患者供下一步分析。
2.1.2 诊断及手术信息 使用国际疾病分类( International Classification of Diseases, ICD)中ICD_9 标准编码,记录患者诊断、诊断分组、手术操作记录信息。表 1 是根据信息中的第一诊断配合患者年龄分组得出的一个简单示例。
2.1.3 实时记录的生理指标 例如,信息数据结构化存储可以实时记录心率、动脉血压、肺动脉压及体液出入量平衡等情况(见图1)。辅)、用药剂量、用药强度及给药途径。
2.1.6 护理病程记录信息 以文本形式详细记录患者病情病史、入院后的治疗诊断过程、在院出院用药情况、检查结果描述、患者状态描述及出院指导等内容。
在实际研究中,为了减少临床记录中录入错误、采样率变化、数据丢失等情况的发生,根据需
求会对数据进行预处理,例如,在脓毒血症患者心率、血压昼夜生理节律性研究中,剔除了在重症加强护理病房( Intensive Care Unit, ICU)住院时间不足 2d 或有效数据长度不够 48 h 的患者记录、使用心脏起搏器的患者以及在整个 ICU 数据记录中丢失长度超过 4h 的患者记录、不同时具有心率和血压
[3]
测量数据的患者记录 。
2.2 研究主题分布
MIMIC 数据库自建立以来,受到各国研究人员关注,围绕其发表的论文逐年增长,研究主题主要分布在以下几个方面:⑴ ICU 患者预后、死亡率预测及其相关影响因素分析。⑵ ICU 患者基本生命体
[3]
征信息的研究,如王剑等 通过对脓毒血症患者心率和血压昼夜变化幅度差异进行研究分析,发现死亡组和存活组之间的心率和血压昼夜变化幅度存在显著性差异,可进一步研究昼夜节律性与临床干预措施的关联性,为患者治疗提供决策支持。⑶探究某些因素是否是某些疾病的影响因子。⑷关于MIMIC 数据库介绍或数据处理方法的研究,包括数据集的获取、使用方法、结构特征的描述、研究方法的介绍等,帮助广大科研工作者快速高效地了解数据库。⑸预测某种疾病的发病率或死亡率。
[4]
Dunitz M 等 利用该数据库研发了一种实时算法,通过将感染性疾病患者进行危险分层,在患者发展为脓毒性休克前进行危险归类,可有效预测高乳酸血症和循环衰竭的发生,提高分诊的效率和准确度。⑹范围较广的其他类研究,包括探究不同测量方法的效果及差异,以及用于多参数数据 D/A 回放的系统开发,可对多参数数据进行波形回放等。
通过研究主题的分布统计可以看出,数据库中的大部分数据已在相关研究中被使用,但仍有很多信息有待各领域结合各自的专业进行深度挖掘,开拓更多研究选题,例如,对其中的文本数据(影像报告、护理病程记录)进行分析,构建可利用的知
[5]识库,也可以有效辅助临床决策 。
2.3 MIMIC 代码知识库
MIMICⅢ数据库的默认数据软件支持系统为
PostgreSQL,也支持其他主流的数据库系统,如MySQL,Oracle,SQL Server 等。PostgreSQL 作为一款功能强大的数据库系统,可以运行在所有主流操作系统上,不仅拥有强大的可靠稳定性,支持大多数的数据类型,可存储二进制大对像(包括图片、声音和视频),多平台语言的兼容能力和可扩性,最关键的是它完全开源,可以自由获取,并免费授权允许用户在各种开源或是闭源项目中使用,因此非常适合作为自由研究的数据库开发平台。
在 GitHub 平台( https://github.com/MIT-LCP/ mimic-code)MIMIC 版块下,有供全球研究者免费下载的代码包,其中有各种脚本内容,包括索引的速度测试、数据库的建立、数据特征(人口统计数据,器官衰竭评分、疾病严重程度评分、治疗持续时间)、可执行文档提取分析数据的实例等。研究者可以通过这些代码看到其他人的研究方法和结果,也可以上传自己的脚本,或者对已有脚本进行改进,在平台的管理下向全世界分享自己修改后的
[6]
代码包 。如图2所示。
例如,脓毒症是 ICU 中常见的、且治疗费用高昂的疾病,以前被定义为全身性炎症和感染同时存在,但最近被重新定义为由宿主对感染的反应失调引
[6]起的危及生命的器官功能障碍。Seymour C W 等通过交叉参考抗生素使用和微生物学评估请求,确定疑似感染的患者。新的研究者采用类似的方法,将入 ICU 不久有过申请微生物培养的情况定义为疑似感染,在脓毒症 3.0 标准下将脓毒症定义为与器官衰竭相关的感染怀疑,在缺乏更精确的标志物的情况下,这个定义即是脓毒症实际发作的代表,它作为3 对于构建中医共享数据集的启示
MIMICⅢ数据库在临床数据库建设和基于数据库开展临床研究方面都走在了前沿,相比较而言,我国在这方面的工作尚处于起步阶段[ 7],特别是中医药行业,缺乏权威的、对公众开放及共享交流的高质量数据集。MIMICⅢ数据库的运行机制,对于构建共享中医数据集具有重要的借鉴及启示作用。
3.1 注重隐私的处理
数据的分享增加了医疗隐私泄露的风险,而数据
[9]
的挖掘会进一步形成对医疗隐私保护更大的威胁 。MIMICⅢ数据库包含 ICU 患者的真实医疗数据,面对全球研究者,为了给予患者应有的保护和尊重,必须在隐私保护方面慎之又慎。
首先,要获取 MIMICⅢ数据库的使用权限,必
[7]起始时间的近似值,可用于开发决策支持工具 。
[8]
Angus D C等 提供脓毒症标准的脚本是通过诊断代码和操作代码,确定相关患者的感染、显性脓毒症、器官衰竭、机械通气情况的有无,除了显性脓毒症之外,感染如果与器官衰竭或机械通气同时存在,则判断为脓毒症(见图 3~图 5)。相比于已发表的论文,这些脚本可以更直观地看到研究者利用数据的方法和结果,为想要进行类似科研数据分析的人提供了方向,能以更有意义的方式管理、分析、解释和呈现这些数据。
须要通过必要的培训课程学习(针对数据研究人员的课程),通过相应的伦理学考试。其次,申请者要在生物医学研究资源网站 PhysioNet(网址: http://www.physionet.org/)上进行信息注册后正式提交申请,同时提供之前完成课程培训的报告,申请获得批准后,将收到从 PhysioNetWorks 下载数据库说明的电子邮件。由于是人工审核,可能需要 1 周左右的时间;若申请中有任何不完整、不正确或无意义的信息,都可能会造成延迟批准或者不批准。如此繁杂的获取过程就是数据的第一重保护。
获得访问权限后,约40 G流量的数据库下载也是一个颇具挑战的过程,下载完成后,在搭建好的数据库管理平台上使用 SQL 脚本建立起一个完整的MIMIC 数据库表结构,并导入相关数据,大约占用
100 G的空间。
最终,数据库本身对患者数据隐私保护完全符合健康保险可移植性和责任法案( HIPAA, Health Insurance Portability and Accountability Act。该法案对医疗信息的电子交换进行了详细规范。网址:
https://www.hippa.com/)的要求,采用算法对患者数据进行预处理,包括利用模式识别算法去标识化、日期移位及格式转换等,识别并移除患者的受保护健康信息。例如,图 6 中, 2196、2153 就是将日期的年份在一定偏移量规则下,经过平移后得到的结果,即日期移位。这些日期仍然可用于年龄或住院天数等计算分析,同时也保护了患者的隐私。这些技术本质上适用于任何医疗文本及患者相关敏感信息的处理,值得在构建中医共享数据集的过程中加
[10]
以学习借鉴 。3.2 对于主索引的确立及各类代码的统一
MIMICⅢ数据库用于区别患者个体的字段共有3 个: subjects_id, hadm_id 和 icustay_id。其中, subjects_id 是患者身份的唯一标识,即 1 个subject_id 对应1名患者。hadm_id 是患者每次住院的身份识别号,1名患者可能多次住院,因此 1 个subjects_id 会对应多个 hadm_id,但个1 hadm_id 只能对应 1 个 subject_id。icustay_id 与 hadm_id 类似,表示患者进入 ICU 的编号, 1 个 hadm_id 可以对应多个 icustay_id。在利用 MIMICⅢ数据库进行研究时,需要运用 SQL 语言对多个数据库进行连
[1]接,连接的基础一般就是上述3个字段 。
诊断、手术操作、药品、检查项目、指标等各项信息在外界都有不同的体系标准,各自代码都不同, MIMICⅢ数据库以字典表的形式,给这些代码提供了内部的统一管理,在数据分析挖掘过程中按照这些字典表的指引,能够更高效地锁定指标的具体内容。
3.3 促进源代码的共享
MIMICⅢ数据库不仅提供数据本身,更重要的是提供基于该数据库的相关研究数据脚本的共享。通过该数据脚本,可以重现该研究使用的实际数据,供后来研究者评估。而且,可以对该脚本不断地深化改进并发布,从而使面向主题的研究更加深入与准确。
当然,若要构建实际的中医共享数据集,除了以上几点可以参考以外,我们也可以围绕专病专科的建设,构建主题更加鲜明的数据集,如针灸疗法评价数据集、推拿疗法评价数据集、皮肤病数据集、妇科病数据集等。在各类数据集的构建过程中,核心应围绕着中医的理、法、方、药以及临床疗效,对数据进行标准化与结构化处理,以提高数据检索的效率与准确性。
参考文献
[1]胡志德.如何利用重症医学数据库 MIMIC 开展研究 [EB/OL]. ( 2018- 06- 25)[ 2019- 04- 26]. http:// www. sohu. com/ a/ 237697470_ 37 3785. [2] 李开源,冯聪,贾立静,等.MIMIC 数据库在急诊医学临床研究过程中运用的思考[J].中华危重病急救医学,2018,30(5):494-496. [3] 王剑,张政波,王卫东,等.基于重症监护数据库 MIMIC-Ⅱ的临床数
据挖掘研究[J].中国医疗器械杂志,2014,38(6):402-406. [4] DUNITZ M, VERGHESE G, HELDT T. Predicting hyperlactatemia in the MIMIC Ⅱ database[J]. Conf Proc IEEE Eng Med Biol
Soc, 2015:985-988. [5] 陈静,李保萍.MIMIC-Ⅲ电子病历数据集及其挖掘研究[J].信息资源管理学报,2017(4):29-37. [6] SEYMOUR C W, LIU V X, IWASHYNA T J, et al. Assessment of clinical criteria for sepsis: for the third international consensus definitions for sepsis and septic shock (sepsis3)[J]. Journal of the American Medical Association, 2016, 315(8):762-774. [7] JOHNSON A E W, STONE D J, CELI L A, et.al. The MIMIC Code
Repository: enabling reproducibility in critical care research[J]. Journal of the American Medical Informatics
Association, 2018,25(1):32-39.
[8] W T, J, et.al.
Epidemiology ANGUS D C, of severe LINDE-ZWIRBLE sepsis in the United LIDICKER States: analysis of incidence, outcome, and associated costs of care[J].
Critical Care Medicine, 2001,29(7):1303-1310. [9] 王强芬.大数据时代医疗隐私层次化控制的理性思考[J].医学与哲学(A),2016,37(5):5-8. [10]郑西川.临床科研大数据应用系列 3:基于 MIMIC-Ⅲ数据集的
患者数据隐私保护技术及启示 HIT 专家网[EB/OL].(2018-09-12) [2019-04-26].https://www.hit180.com/33205.html. (收稿日期:2019-07-19) (修回日期:2019-09-09;编辑:魏民)