手机版 欢迎访问人人都是自媒体网站

当前位置:主页 > 洞察 >

基于电子病历(EMR)的大数据知识挖掘

时间:2021-01-04 09:27|来源:网络整理|编辑:采集侠|点击:

编辑导语:随着互联网的不断发展,互联网医疗信息化也不断完善,如今电子病历也已经广泛运用了,用账号进行登录有助于病例的查找;本文作者分享了关于基于电子病历(EMR)的大数据知识挖掘,我们一起来学习一下。

 基于电子病历(EMR)的大数据知识挖掘

随着医疗机构信息化建设的大力推进,电子病历数据持续的海量增长,针对电子病历数据的知识挖掘也应运而生;电子病历记录了病患就诊的全过程,包含数字、图像、文本等多种数字化信息。

项目从电子病历应用场景出发,根据完整的医疗活动过程中不同的角色,分别从临床医疗、教学科研、管理部门和病患四个角度进行需求分析;明确电子病历的功能定位,挖掘出电子病历中潜在的医学规则和模式;一方面为医务人员临床诊断中提供决策支持,另一方面方便向大众普及病症知识,为疾病防治与健康医疗模式带来改变。

一、核心技术 1. 数据清洗

1)隐私数据处理

电子病历中包含患者的全部信息,对电子病历的信息抽取涉及到患者隐私,因此需要将患者身份信息隐藏,仅保留研究相关的诊断信息,以保护患者基本权益不受侵犯。

2)主数据目录(分词、词性、同义词、相似词)

首先保障数据的完整性、一致性与唯一性,自动分词和词性标注是文本挖掘的基础,分词和词性算法的优劣直接决定了文本挖掘的效果。

首先融合权威词表、官方标准,通过网络尽可能完整地收录医学词汇,构建医学词典,避免分词错误;同时构建词性标注集合,确保适应电子病历的词性体系;并结合基于统计和机器学习的分词和词性算法,对未登录词进行识别,提升电子病历分词和词性效果;构建电子病历分词和词性标准,为后续电子病历的挖掘奠定基础。

2. 数据抽取

抽取规则:多种表达式(业务活动、时间轴、病种、科室、地名等)

为了实现对电子病历数据的有效组织和分析,基于电子病历信息库,在传统机器学习模型上,使用基于七分位词位标注集和复杂语言特征模板的条件随机场,从电子病历的文本中抽取实体。

基于深度学习模型,在人工标注电子病历实体数据的基础上,构建RNN、LSTM、LSTM-CRF和BERT等深度学习实体抽取模型。

在上述所构建的两类实体抽取模型的基础上,完成对电子病历中实体的抽取;在本部分不仅完成对实体的抽取任务,而且会对所构建的实体抽取模型的整体性能进行纵向和横向的对比,以确定最适合电子病历实体抽取的模型;构建电子病历的实体标注规范,并形成针对电子病历的实体抽取模型。

例如:时间轴。

电子病历具有显著地时序性:病症在不同诊疗阶段具有明显的差异;病人生命体征受时间规律影响;流行病的环境因素中时间因素也是重要的组成部分。

除了电子病历生成时间、修改时间等显示时间外,病历中的隐式时间点及时间段推断也是研究的重难点,对电子病历时间维度上的研究也是电子病历挖掘的重中之重。

3. 数据存储

基于Hadoop大数据平台搭建全文检索引擎,实现海量结构、非结构化数据的高效存储和检索,提供更快、更优用户体验。

4. 数据仓库

主要步骤包括:

命名实体识别,即在文本中找到关键词,并能与文中所指的概念对应起来;如在某一文本中,不仅能通过基因符号识别出这个基因,也可以通过同义词,或以往名称识别出该基因。

信息抽取,基于语言结构的先验知识(如自然语言中的主、谓、宾三元结构),通过自然语言处理方法,抽取出特定的动词或名词。

信息存储,将抽取到的信息(数据)加载并转存到标准化数据模型中,形成以患者为中心、医院临床信息系统(HIS、EMR、LIS、PACS等)无缝、连续和可互操作的集中式医疗大数据平台;该过程中的数据抽取、转化、加载称之为数据仓库(extract-transform-load, ETL)技术。

二、业务应用 1. 全文检索平台

当前,海量的电子病历为医务人员蕴藏了丰富的专业知识,却也给循证医学造成了阻碍。

其中大量非结构化的文本无法有效地进行信息查询,主要存两点问题:

数据库无法存储海量数据;

数据库中非结构化数据查询效率极低。

基于大数据技术,构建高性能数据存储、分布式检索和分析平台,实现海量病历文本高效检索,为临床医疗和教学科研等工作提供基础保障。

2. 构建临床循证知识库(辅助治疗)

知识库是经过有机组织的知识集群,采用命名实体识别方法对电子病历中疾病名称、身体部位、症状、检查项目、治疗手段、药品名进行抽取,形成实时更新的医学实体库及相关的医疗用语库。

Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP