CJLIS (Traditional Chinese Medicine)

MIMICⅢ数据库特征分析及对构­建共享中医数据集的启­示

- 周蜜果,张平,窦丹波,冯佳,刘宁远,成福春,朱亮

【引文格式】周蜜果,张平,窦丹波,等.MIMICⅢ数据库特征分析及对构­建共享中医数据集的启­示[J].中国中医药图书情报杂­志, 2019,43(6):1-5.周蜜果 1 ,张平 2 ,窦丹波 2*,冯佳 1 ,刘宁远1 ,成福春1 ,朱亮 1 1.上海中医药大学附属岳­阳中西医结合医院,上海 200437;2.上海中医药大学附属曙­光医院,上海 201203

摘要:本文对重症监护医学信­息集市Ⅲ (MIMICⅢ数据库)的数据构成和特征内容­进行分析,梳理了研究者基于该数­据库的研究主题分布、代码知识库的共享模式­及脚本内容、隐私数据的处理和多层­保护机制,认为 MIMICⅢ数据库的技术和管理模­式适用于类似医疗信息­的处理,如注重隐私的处理、对于主索引的确立及各­类代码的统一、促进源代码的共享等,对构建共享中医数据集­具有参考意义。关键词: MIMICⅢ数据库;代码共享;中医数据集

DOI: 10.3969/j.issn.2095-5707.2019.06.001

中图分类号: R197.324;G353.1 文献标识码: A 文章编号: 2095-5707(2019)06-0001-05

随着医院信息系统的不­断完善,医疗数据的获取和再利­用的效率成为医疗健康­大数据的焦点,医生和科研人员通过对­这些信息的检索整合,可以获

得科研成果或者用于临­床决策支持。中医科室基于实际业务­建立了大量的专科数据­集,数据集的质量直接影响­到数据的使用效果。本文旨在通过对国际通­用度较高的医学信息数­据库的数据特征及运行­模式进行研究,为构建中医数据集提供­参考,使其能更好地、有针对性地支持临床数­据挖掘及临床决策。1 MIMICⅢ数据库概况

2003 年,美国贝斯以色列女执事­医疗中心

( Beth Israel Deaconess Medical Center,以下简称“医疗中心”)、麻省理工( MIT)、麻省总医院( MGH)和英国牛津大学的急诊­科医生、重症科医生、计算机科学专家等共同­建立了一个数据库,该数据库在建立之初的­名字为 Multiparam­eter Intelligen­t Monitoring in Intensive Care Ⅱ,简写为MIMICⅡ。2016 年 9 月, MIMICⅡ数据库升级为MIMI­CⅢ数据库,并改名为 Medical Informatio­n Mart for Intensive Care,直译为重症监护医学信­息集市,简写仍然是MIMIC。

目前 MIMIC Ⅲ数据库最新的版本是 1.4 ( V1.4),包含了 2001 年 6 月- 2012 年 10 月在医疗中心住院的 38 645 名成年个体(非新生儿)和7 875 名新生儿(出生至 28 天)的 58 000 余次住院临床诊疗信息。这些资料被整理成了 26 张 CSV 格式(以纯文本的形式存储表­格数据,包括数字和文本)的表格供研究者查询[ 1],为流行病学的分析性研­究、临床决策的发展及医学­电子设备的研发提供

[2]了更多样的方法和思路 。

2 MIMICⅢ数据库内容

2.1 MIMICⅢ数据库的表结构

MIMICⅢ数据库有 26 张表格,其中5 张为辅助字典表(包括医疗项目、诊断、手术操作、指标项目、实验室项目对应代码),余下 21 张都是患者住院期间的­各项临床数据,其中检验记录表( Chartevent­s)是内存最大的一张表格,达到 30 多个 G,由于数据量过大,这一张表在导入数据库­时2.1.4 影像学检查结果、医嘱、全面的实验室检验结果 例如,血生化、血常规、动脉血气、尿常规、微生物检查等。除了影像学检查结果是­以文本描述的形式存储,其他实验室检验结果均­是结构化的数据。

2.1.5 患者用药记录信息 每位患者用药的开始及­结束时间、药品名称、规格单位、药品类型(主、

被拆分为 18 张。在研究中,较为常用的 MIMICⅢ数据库的信息主要有以­下几类。

2.1.1 基本信息 患者的人口统计学资料(如性别、种族、婚姻状况等),以及出入院、病区转换等基本信息。年龄没有直接记载,但可以通过出生日期和­入院日期之差计算得出。这些基本信息可用于研­究初期,在样本中筛选出类似性­质的患者供下一步分析。

2.1.2 诊断及手术信息 使用国际疾病分类( Internatio­nal Classifica­tion of Diseases, ICD)中ICD_9 标准编码,记录患者诊断、诊断分组、手术操作记录信息。表 1 是根据信息中的第一诊­断配合患者年龄分组得­出的一个简单示例。

2.1.3 实时记录的生理指标 例如,信息数据结构化存储可­以实时记录心率、动脉血压、肺动脉压及体液出入量­平衡等情况(见图1)。辅)、用药剂量、用药强度及给药途径。

2.1.6 护理病程记录信息 以文本形式详细记录患­者病情病史、入院后的治疗诊断过程、在院出院用药情况、检查结果描述、患者状态描述及出院指­导等内容。

在实际研究中,为了减少临床记录中录­入错误、采样率变化、数据丢失等情况的发生,根据需

求会对数据进行预处理,例如,在脓毒血症患者心率、血压昼夜生理节律性研­究中,剔除了在重症加强护理­病房( Intensive Care Unit, ICU)住院时间不足 2d 或有效数据长度不够 48 h 的患者记录、使用心脏起搏器的患者­以及在整个 ICU 数据记录中丢失长度超­过 4h 的患者记录、不同时具有心率和血压

[3]

测量数据的患者记录 。

2.2 研究主题分布

MIMIC 数据库自建立以来,受到各国研究人员关注,围绕其发表的论文逐年­增长,研究主题主要分布在以­下几个方面:⑴ ICU 患者预后、死亡率预测及其相关影­响因素分析。⑵ ICU 患者基本生命体

[3]

征信息的研究,如王剑等 通过对脓毒血症患者心­率和血压昼夜变化幅度­差异进行研究分析,发现死亡组和存活组之­间的心率和血压昼夜变­化幅度存在显著性差异,可进一步研究昼夜节律­性与临床干预措施的关­联性,为患者治疗提供决策支­持。⑶探究某些因素是否是某­些疾病的影响因子。⑷关于MIMIC 数据库介绍或数据处理­方法的研究,包括数据集的获取、使用方法、结构特征的描述、研究方法的介绍等,帮助广大科研工作者快­速高效地了解数据库。⑸预测某种疾病的发病率­或死亡率。

[4]

Dunitz M 等 利用该数据库研发了一­种实时算法,通过将感染性疾病患者­进行危险分层,在患者发展为脓毒性休­克前进行危险归类,可有效预测高乳酸血症­和循环衰竭的发生,提高分诊的效率和准确­度。⑹范围较广的其他类研究,包括探究不同测量方法­的效果及差异,以及用于多参数数据 D/A 回放的系统开发,可对多参数数据进行波­形回放等。

通过研究主题的分布统­计可以看出,数据库中的大部分数据­已在相关研究中被使用,但仍有很多信息有待各­领域结合各自的专业进­行深度挖掘,开拓更多研究选题,例如,对其中的文本数据(影像报告、护理病程记录)进行分析,构建可利用的知

[5]识库,也可以有效辅助临床决­策 。

2.3 MIMIC 代码知识库

MIMICⅢ数据库的默认数据软件­支持系统为

PostgreSQL,也支持其他主流的数据­库系统,如MySQL,Oracle,SQL Server 等。PostgreSQL 作为一款功能强大的数­据库系统,可以运行在所有主流操­作系统上,不仅拥有强大的可靠稳­定性,支持大多数的数据类型,可存储二进制大对像(包括图片、声音和视频),多平台语言的兼容能力­和可扩性,最关键的是它完全开源,可以自由获取,并免费授权允许用户在­各种开源或是闭源项目­中使用,因此非常适合作为自由­研究的数据库开发平台。

在 GitHub 平台( https://github.com/MIT-LCP/ mimic-code)MIMIC 版块下,有供全球研究者免费下­载的代码包,其中有各种脚本内容,包括索引的速度测试、数据库的建立、数据特征(人口统计数据,器官衰竭评分、疾病严重程度评分、治疗持续时间)、可执行文档提取分析数­据的实例等。研究者可以通过这些代­码看到其他人的研究方­法和结果,也可以上传自己的脚本,或者对已有脚本进行改­进,在平台的管理下向全世­界分享自己修改后的

[6]

代码包 。如图2所示。

例如,脓毒症是 ICU 中常见的、且治疗费用高昂的疾病,以前被定义为全身性炎­症和感染同时存在,但最近被重新定义为由­宿主对感染的反应失调­引

[6]起的危及生命的器官功­能障碍。Seymour C W 等通过交叉参考抗生素­使用和微生物学评估请­求,确定疑似感染的患者。新的研究者采用类似的­方法,将入 ICU 不久有过申请微生物培­养的情况定义为疑似感­染,在脓毒症 3.0 标准下将脓毒症定义为­与器官衰竭相关的感染­怀疑,在缺乏更精确的标志物­的情况下,这个定义即是脓毒症实­际发作的代表,它作为3 对于构建中医共享数据­集的启示

MIMICⅢ数据库在临床数据库建­设和基于数据库开展临­床研究方面都走在了前­沿,相比较而言,我国在这方面的工作尚­处于起步阶段[ 7],特别是中医药行业,缺乏权威的、对公众开放及共享交流­的高质量数据集。MIMICⅢ数据库的运行机制,对于构建共享中医数据­集具有重要的借鉴及启­示作用。

3.1 注重隐私的处理

数据的分享增加了医疗­隐私泄露的风险,而数据

[9]

的挖掘会进一步形成对­医疗隐私保护更大的威­胁 。MIMICⅢ数据库包含 ICU 患者的真实医疗数据,面对全球研究者,为了给予患者应有的保­护和尊重,必须在隐私保护方面慎­之又慎。

首先,要获取 MIMICⅢ数据库的使用权限,必

[7]起始时间的近似值,可用于开发决策支持工­具 。

[8]

Angus D C等 提供脓毒症标准的脚本­是通过诊断代码和操作­代码,确定相关患者的感染、显性脓毒症、器官衰竭、机械通气情况的有无,除了显性脓毒症之外,感染如果与器官衰竭或­机械通气同时存在,则判断为脓毒症(见图 3~图 5)。相比于已发表的论文,这些脚本可以更直观地­看到研究者利用数据的­方法和结果,为想要进行类似科研数­据分析的人提供了方向,能以更有意义的方式管­理、分析、解释和呈现这些数据。

须要通过必要的培训课­程学习(针对数据研究人员的课­程),通过相应的伦理学考试。其次,申请者要在生物医学研­究资源网站 PhysioNet(网址: http://www.physionet.org/)上进行信息注册后正式­提交申请,同时提供之前完成课程­培训的报告,申请获得批准后,将收到从 PhysioNetW­orks 下载数据库说明的电子­邮件。由于是人工审核,可能需要 1 周左右的时间;若申请中有任何不完整、不正确或无意义的信息,都可能会造成延迟批准­或者不批准。如此繁杂的获取过程就­是数据的第一重保护。

获得访问权限后,约40 G流量的数据库下载也­是一个颇具挑战的过程,下载完成后,在搭建好的数据库管理­平台上使用 SQL 脚本建立起一个完整的­MIMIC 数据库表结构,并导入相关数据,大约占用

100 G的空间。

最终,数据库本身对患者数据­隐私保护完全符合健康­保险可移植性和责任法­案( HIPAA, Health Insurance Portabilit­y and Accountabi­lity Act。该法案对医疗信息的电­子交换进行了详细规范。网址:

https://www.hippa.com/)的要求,采用算法对患者数据进­行预处理,包括利用模式识别算法­去标识化、日期移位及格式转换等,识别并移除患者的受保­护健康信息。例如,图 6 中, 2196、2153 就是将日期的年份在一­定偏移量规则下,经过平移后得到的结果,即日期移位。这些日期仍然可用于年­龄或住院天数等计算分­析,同时也保护了患者的隐­私。这些技术本质上适用于­任何医疗文本及患者相­关敏感信息的处理,值得在构建中医共享数­据集的过程中加

[10]

以学习借鉴 。3.2 对于主索引的确立及各­类代码的统一

MIMICⅢ数据库用于区别患者个­体的字段共有3 个: subjects_id, hadm_id 和 icustay_id。其中, subjects_id 是患者身份的唯一标识,即 1 个subject_id 对应1名患者。hadm_id 是患者每次住院的身份­识别号,1名患者可能多次住院,因此 1 个subjects_id 会对应多个 hadm_id,但个1 hadm_id 只能对应 1 个 subject_id。icustay_id 与 hadm_id 类似,表示患者进入 ICU 的编号, 1 个 hadm_id 可以对应多个 icustay_id。在利用 MIMICⅢ数据库进行研究时,需要运用 SQL 语言对多个数据库进行­连

[1]接,连接的基础一般就是上­述3个字段 。

诊断、手术操作、药品、检查项目、指标等各项信息在外界­都有不同的体系标准,各自代码都不同, MIMICⅢ数据库以字典表的形式,给这些代码提供了内部­的统一管理,在数据分析挖掘过程中­按照这些字典表的指引,能够更高效地锁定指标­的具体内容。

3.3 促进源代码的共享

MIMICⅢ数据库不仅提供数据本­身,更重要的是提供基于该­数据库的相关研究数据­脚本的共享。通过该数据脚本,可以重现该研究使用的­实际数据,供后来研究者评估。而且,可以对该脚本不断地深­化改进并发布,从而使面向主题的研究­更加深入与准确。

当然,若要构建实际的中医共­享数据集,除了以上几点可以参考­以外,我们也可以围绕专病专­科的建设,构建主题更加鲜明的数­据集,如针灸疗法评价数据集、推拿疗法评价数据集、皮肤病数据集、妇科病数据集等。在各类数据集的构建过­程中,核心应围绕着中医的理、法、方、药以及临床疗效,对数据进行标准化与结­构化处理,以提高数据检索的效率­与准确性。

参考文献

[1]胡志德.如何利用重症医学数据­库 MIMIC 开展研究 [EB/OL]. ( 2018- 06- 25)[ 2019- 04- 26]. http:// www. sohu. com/ a/ 237697470_ 37 3785. [2] 李开源,冯聪,贾立静,等.MIMIC 数据库在急诊医学临床­研究过程中运用的思考[J].中华危重病急救医学,2018,30(5):494-496. [3] 王剑,张政波,王卫东,等.基于重症监护数据库 MIMIC-Ⅱ的临床数

据挖掘研究[J].中国医疗器械杂志,2014,38(6):402-406. [4] DUNITZ M, VERGHESE G, HELDT T. Predicting hyperlacta­temia in the MIMIC Ⅱ database[J]. Conf Proc IEEE Eng Med Biol

Soc, 2015:985-988. [5] 陈静,李保萍.MIMIC-Ⅲ电子病历数据集及其挖­掘研究[J].信息资源管理学报,2017(4):29-37. [6] SEYMOUR C W, LIU V X, IWASHYNA T J, et al. Assessment of clinical criteria for sepsis: for the third internatio­nal consensus definition­s for sepsis and septic shock (sepsis3)[J]. Journal of the American Medical Associatio­n, 2016, 315(8):762-774. [7] JOHNSON A E W, STONE D J, CELI L A, et.al. The MIMIC Code

Repository: enabling reproducib­ility in critical care research[J]. Journal of the American Medical Informatic­s

Associatio­n, 2018,25(1):32-39.

[8] W T, J, et.al.

Epidemiolo­gy ANGUS D C, of severe LINDE-ZWIRBLE sepsis in the United LIDICKER States: analysis of incidence, outcome, and associated costs of care[J].

Critical Care Medicine, 2001,29(7):1303-1310. [9] 王强芬.大数据时代医疗隐私层­次化控制的理性思考[J].医学与哲学(A),2016,37(5):5-8. [10]郑西川.临床科研大数据应用系­列 3:基于 MIMIC-Ⅲ数据集的

患者数据隐私保护技术­及启示 HIT 专家网[EB/OL].(2018-09-12) [2019-04-26].https://www.hit180.com/33205.html. (收稿日期:2019-07-19) (修回日期:2019-09-09;编辑:魏民)

 ??  ?? 图 1 MIMICⅢ数据库中测量记录的血­压等信息数据结构化存­储
图 1 MIMICⅢ数据库中测量记录的血­压等信息数据结构化存­储
 ??  ??
 ??  ?? 图 2 GitHub 平台——MIMIC代码分享模­块
图 2 GitHub 平台——MIMIC代码分享模­块
 ??  ?? 图 3 GitHub平台——脓毒症研究脚本及对应­文献
图 3 GitHub平台——脓毒症研究脚本及对应­文献
 ??  ?? 图 5 GitHub平台——脓毒症标准部分脚本内­容2
图 5 GitHub平台——脓毒症标准部分脚本内­容2
 ??  ?? 图 4 GitHub平台——脓毒症标准部分脚本内­容1
图 4 GitHub平台——脓毒症标准部分脚本内­容1
 ??  ?? 图 6 MIMICⅢ数据库中的日期移位记­录示例
图 6 MIMICⅢ数据库中的日期移位记­录示例

Newspapers in Chinese (Simplified)

Newspapers from China