近日,国内著名医学期刊《中华消化外科杂志》上,发表了一篇述评《胃肠肿瘤医疗大数据库的机遇与挑战》的文章。该文由北京大学肿瘤医院与医渡云共同撰写,围绕我国医院普遍存在的数据准确度低、更新速度慢、数据利用率低等共性问题进行了分析。
据文章所言,在肿瘤领域,越来越多的高水平研究建立在上万病例数据的分析基础上。从肿瘤发生机制的研究到临床诊断与治疗、预防和监测,都涉及数据收集、管理和分析。因此,高质量的临床数据是未来精准临床决策与高水平临床研究的首要基础条件。
此外,文章还指出了现阶段临床数据库的三大现状:“小”“差”“乱”。“小”指的是很多数据库规模小、病例数少,数据条目结构少。“差”指的是数据质量差,尤其是我国由于人口流动性大,随访数据难以收集,存在数据丢失的情况。“乱”是指数据一致性差,数据库融合共享可能性低。因此,如何利用大数据技术,改善国内医疗数据库“小”“差”“乱”的现状,成为了科研人员的现实问题。
胃癌疾病数据库探索
国内知名医疗大数据公司医渡云,利用一种新型大数据技术,建立了胃癌疾病数据库,对科研数据进行质量控制。首先,医渡云与医院的EMR、LIS、PACS和HIS系统数据对接,筛选诊断为胃癌患者,并通过EMPI、映射、结构化和归一的技术,对数据进行加工,形成一个疾病数据库。在这个数据库中,可对数据进行查看、筛选、管理,也可以对数据进行双录核查。
另外,可根据需求纳排患者并设置研究项目,按研究要求采集数据。当需要一部分随访数据的时候,也可以设置随访规则,提醒医生追踪患者复诊或录入数据。同时,医渡云疾病数据库中还有描述性统计、单因素分析、多因素分析、相关分析、生存分析描述性统计等统计功能,可以随时查看疾病指标的分布情况、分析患者数据、并初步验证科研思路。此外,还可以在临床数据基础上,接入基因和生物样本库数据,不断拓展数据库的宽度,以支撑更多的研究。
胃癌疾病数据库的三大优势
总体来看,医渡云胃癌疾病数据库和传统数据库相比,具有3大优势,即
1)NLP后结构化处理能力
2)归一标准化能力
3)复杂逻辑推理计算能力
医疗数据中有很多为大段文本,无法直接进行数据统计和计算,医渡云利用自然语言处理技术对文本进行结构化提取,如下图所示,胃癌疾病数据库可将手术过程描述和病历检查文本进行结构化提取和处理。
胃癌疾病数据库按优先级取值,从诊断名称/病理结论/手术过程描述/检查结论(胃镜/超声胃镜/CT)这几个来源取全部值去重输出Borrmann分型,并将多种杂乱的分型描述归一成1~4型共4个分型。
医院科室数据情况不一样,有一些数据在原始数据中也查找不到,医渡云疾病数据库可以通过详尽的医学逻辑,深度计算来源于医院不同生产系统的诊疗数据,以得出原始数据中未提及的数据,以下为病理分期示例。
胃癌疾病模型标准数据集持续升级中
1.0版本的胃癌疾病数据库,参考了国内外肿瘤主流的指南和规范,包括但不限于:
★ AJCC TNM分期
★ WHO病理分型
★ LOINC检验-观测指标标识符逻辑命名与编码系统
★ CTCAE常见不良反应事件评价标准
★ INN国际非专利药品通用名
★ 指南中的命名/没有标准的采用专家共识
手术治疗和病理部分很多字段的值域标准还参考了:
★第5版日本胃癌治疗指南
(Japanese gastric cancer treatment guidelines) (在采用 )
★第15版日本胃癌处理规约
(Japanese Classification of Gastric Carcinoma);
目前,胃癌疾病模型标准数据集已升级至2.0版本。在原有模型的基础上,医渡云做了复杂逻辑字段深度加工、纳入参考更多的标准规范、数据标准值域完整度等全方面的提升。例,在检查和治疗方面的字段增加参考了最新CSCO胃癌诊疗指南(2018第1版)。
截至目前,医渡云已与国内顶尖专家深度合作共建40余种疾病模型标准数据集,包括消化肿瘤、呼吸肿瘤、妇科肿瘤、泌尿外科肿瘤、头颈部肿瘤、血液病、心血管疾病等疾病领域,并在持续扩展和升级中。其中胃癌领域,医渡云除了与北肿合作外,还与中国医科大学附属第一医院、南京鼓楼医院等医院的顶尖专家建立了合作。医渡云通过不断的沉淀,希望从技术支持的角度在胃癌数据平台与更多的专家合作共建,为中国胃癌大数据建设及相关研究和诊疗规范贡献力量。
按照行业专家的观点,随着我国政策的推动,居民健康、社会保障等数据的应用集成,能更方便地获取覆盖居民全生命周期的健康信息。通过和医院已有数据库的共享,建设符合我国国情的大数据平台,能逐步形成具有国际影响力的大型疾病数据库。未来,医疗机构有望通过医渡云的疾病数据库,建立一个崭新的健康大数据应用体系。