MIMICⅢ数据库特征分析及对构建共享中医数据集的启示

来源:期刊VIP网所属分类:综合论文发布时间:2019-12-26浏览:

  摘要:本文对重症监护医学信息集市Ⅲ(MIMICⅢ数据库)的数据构成和特征内容进行分析,梳理了研究者基于该数据库的研究主题分布、代码知识库的共享模式及脚本内容、隐私数据的处理和多层保护机制,认为MIMICⅢ数据库的技术和管理模式适用于类似医疗信息的处理,如注重隐私的处理、对于主索引的确立及各类代码的统一、促进源代码的共享等,对构建共享中医数据集具有参考意义。

  关键词:MIMICⅢ数据库;代码共享;中医数据集

大数据论文

  推荐阅读:大数据时代的企业管理会计创新与应用

  随着医院信息系统的不断完善,医疗数据的获取和再利用的效率成为医疗健康大数据的焦点,医生和科研人员通过对这些信息的检索整合,可以获得科研成果或者用于临床决策支持。中医科室基于实际业务建立了大量的专科数据集,数据集的质量直接影响到数据的使用效果。本文旨在通过对国际通用度较高的医学信息数据库的数据特征及运行模式进行研究,为构建中医数据集提供参考,使其能更好地、有针对性地支持临床数据挖掘及临床决策。

  1 MIMICⅢ数据库概况

  2003年,美国贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center,以下简称“医疗中心”)、麻省理工(MIT)、麻省总医院(MGH)和英国牛津大学的急诊科医生、重症科医生、计算机科学专家等共同建立了一个数据库,该数据库在建立之初的名字为Multiparameter Intelligent Monitoring in Intensive Care Ⅱ,简写为MIMICⅡ。2016年9月,MIMICⅡ数据库升级为MIMICⅢ数据库,并改名为Medical Information Mart for Intensive Care,直译为重症监护医学信息集市,简写仍然是MIMIC。

  目前MIMICⅢ数据库最新的版本是1.4(V1.4),包含了2001年6月-2012年10月在医疗中心住院的38 645名成年个体(非新生儿)和 7 875名新生儿(出生至28天)的58 000余次住院临床诊疗信息。这些资料被整理成了26张CSV格式(以纯文本的形式存储表格数据,包括数字和文本)的表格供研究者查询[1],为流行病学的分析性研究、临床决策的发展及医学电子设备的研发提供了更多样的方法和思路[2]。

  2 MIMICⅢ數据库内容

  2.1 MIMICⅢ数据库的表结构

  MIMICⅢ数据库有26张表格,其中5张为辅助字典表(包括医疗项目、诊断、手术操作、指标项目、实验室项目对应代码),余下21张都是患者住院期间的各项临床数据,其中检验记录表(Chartevents)是内存最大的一张表格,达到30多个G,由于数据量过大,这一张表在导入数据库时被拆分为18张。在研究中,较为常用的MIMICⅢ数据库的信息主要有以下几类。

  2.1.1 基本信息 患者的人口统计学资料(如性别、种族、婚姻状况等),以及出入院、病区转换等基本信息。年龄没有直接记载,但可以通过出生日期和入院日期之差计算得出。这些基本信息可用于研究初期,在样本中筛选出类似性质的患者供下一步分析。

  2.1.2 诊断及手术信息 使用国际疾病分类(International Classification of Diseases, ICD)中ICD_9标准编码,记录患者诊断、诊断分组、手术操作记录信息。表1是根据信息中的第一诊断配合患者年龄分组得出的一个简单示例。

  2.1.3 实时记录的生理指标 例如,信息数据结构化存储可以实时记录心率、动脉血压、肺动脉压及体液出入量平衡等情况。

期刊VIP网,您身边的高端学术顾问

文章名称: MIMICⅢ数据库特征分析及对构建共享中医数据集的启示

文章地址: http://www.qikanvip.com/lunwen/zonghelunwen/2019/1226/49919.html