搜索
您的当前位置:首页基于深度学习的中文病历病史智能分类研究

基于深度学习的中文病历病史智能分类研究

来源:飒榕旅游知识分享网
基于深度学习的中文病历病史智能 分来旃究叶辉'卓奕荣'曹东**李敬华2

摘耍 自然语言处理(Natural Language Processing, NLP)是计算机科学领域及人工智能领域的•个重要方向, 结合机器学习的自然语言处理,能够有效地把非结构化的自然语言转换为结构化的数据。医院的电子病历主要用于临 床,对于电子病历的数据,往往需要重新组织才能开展研究,论文主要研究基于卷积神经网络(Convolutional Neural

Network, CNN)、长短期记忆网络(long Short-Term Menmory, LSTM)等算法对中医病历资料进行病史信息字段自动分类

与抽取,旨在解决医学病历混杂的文本信息中自动抽取所有病史信息的分类问题。总结实验结果发现,基于卷积神经网络

(CNN)的病史信息分类抽取F1值为0.850 6,基于长短期记忆网络(LSTM)的病史信息分类抽取F1值为0. 881 0,具有良好

的分类效果。关键诃卷积神经网络长短期记忆网络病史信息分类Doi:10.3969/j.issn. 1673-7571.2019.03.011【中图分类号]R319 [文献标识碍]AIntelligent Classification of Medical History in Chinese Medical Records Based on Deep Learning / YE Hui, ZHUO Yi~rong, CAO

Dong, et al//China Digital Medicine.—2019 14(3): 41 to 43Abstract Natural language processing (NLP) is an important direction in the field of computer science and artificial intelligence.

Combined with natural language processing of machine learning, it can effectively transform unstructured natural language into structured data. Hosp让al electronic medical records is mainly used in clinical, the electronic medical record data, often need to organize

to conduct research, this thesis mainly studies b.ised on convolutional CNN, «ind LSTM algorithm k)r the classiticatiim of the medical

records of the history infbnnation extraction, aimed at resolving medical records mixed automatic extraction of text information all history infbnnation classification problem. It was found that Fl was extracted with a value of 0.8506 based on the medical history

information classification of convolutional CNN, and Fl was extracted with a value of 0.8810 based on the medical history information classification of LSTM. All of them have good classification effect.Keywords CNN, LSTM, electronic medical history classificationFund project National Key R&D Program in 2017 (No. SQ2()17YF(;X()60()73); Young Innovative Talents Project of Guangdong

High-level University Building in 2016 (No. 2016KQNCX024)Corresponding author School of Medical Information Engineering, Guangzhou University of Traditional C'hinese Medicine.

Guangzhou 510006, Guangdong Province, P.R.C.1引言目前的电子病历大多数都包括大量非结构化数据,要从中寻找有价值的信息,难度很大。在病历电子化的过程中,电乂基金项目:2017国家重点研发计划(编号:SQ2()17YFGXO6()()73 ) ; 2016广东省高水平大学建设青年创新人才项目(编号:

2016KQNCX024 )*通信作者:广州中医药大学医学信息工程学院,51(XX)6,广东省广州市番禺区广州大学城外环东路232号① 广州中医药大学医学信息工程学院,51(XX)6,广东省广州市番禺区广州大学城外环东路232号② 中国中医科学院,1(X)7”),北京市东城区东直门内南小街16号41子病历通常只是简单记录病人所有的 文字信息,然后把描述病人情况的文

字记录在一个文本文档,杂糅了大量

的长篇无序的文本信息。徐坤等山运用FCA理论进行了医 学领域文本分类中的研究,用于区分

各类疾病文献,但无法对文献信息进

行提取。夏涵卩1开展基于本体的医学

命名实体识别技术研究,提出扩展K

array ([-0. 31816772,0. 44757006, -0.3326104 ,0. 27606145, -0.17862655,0. 33091599,0. 43963918, -0.03443934, -0. 08468994,0. 22592843,0.2018075 , -0. 16567975, -0. 25133923, -0. 75560308,0.32570091, -0. 18670812,0.2417969 ,0. 46933576, -0.18321899, -0. 19003886,-0.00627206,-0. 58911687,-0.16679068,-0. 25007105,-0. 27090469,0.03950894,0.13814548, -0.35786054,0. 25545678, -0. 17619583, -0.03355625, -0.0324857 , -0. 30861995,0.4035188 , -0.251569 ,-0.71218067, -0.12101568,0.05971078, -0. 36335981, -0.43901286,-0. 17191799,0. 53091556, -0. 1251844 ,0. 23879826, -0.62285769,0. 03633316,0.12449931, -0.4256604 , -0.2017038 ,0.13596779,0. 06760518,0. 58657897, -0. 49065343, -0.05357339,0. 14084785,0. 10337187, -0.14835049, -0.05094101,0. 19255625, -0.27286521,-0.15812089,0. 35991812,0.53093064,0.12284408,0.07754374,0.0215663 ,0. 15778485,0. 50906068, -0.4388901 , -0.03967915,0. 30939612, -0.22928464, -0.35846126, -0. 18558122, -0. 3034234 ,0.34139937, -0.23985638,0.12492874,0.35346079,0. 19352041,-0. 39322403, -0. 09170274,0.17307758,0. 22345635, -0.0452828 , -0.07188296, -0.19804499,0.10862926,0. 71516126,0.06317313,0. 57936311, -0.41445291,0.25549746, -0.8712945 ,-0.10908321,0.31538188,-0.29830948, 0.44372678,-0.18134971,-0.60292071], dtype=float32)的SVM-KNN分类算法,进行医学命

图1 “头晕\"的词向量名实体识别,准确率与查全率达到了

维度为100的词向量。训练后每一个词

语都有一个对应的100维度的词向量表

号,95%的病历资料作为训练集,5% 作为测试集,对病历中属于病史的句

子标志标签为1,不属于病史的句子标

86.16%、84.12%。赵明回利用LSTM

对饮食健康文本进行分类,效果良

好。以上研究只关注在词汇和关系的

示。图1为病历中症状描述中\"头晕”- 词经Wo「d2veci丿11练得出的词向量结构。志标签为0。抽取上,面对大量混杂的长文本,抽 取效果可能不是很理想。论文研究如何在混杂的文本信息

2.2基于卷积神经网络的文本分类卷

积神经网络是一种深度前馈人工神 经网络,卷积神经网络相比多层感

3.2两种深度学习分类方法的实现3.2.1基于卷积神经网络CNN的病

史信息抽取基于卷积神经网络CNN

中分类出病历症状文本信息的问题,

主要研究基于CNN和LSTM等深度学习

知机多了卷积层和池化层,利用卷积 的病史信息抽取模型的主要建立步

层和池化层的处理来提取特征。利用 骤:将对病历文本进行预处理后,用

算法的病历病史信息抽取,旨在解决

Word2vec表示词向量和Word2vec-Avg

模型表示每一个句子,再通过卷积神 经网络模型对病历信息进行训练⑸,采

用卷积神经网络LeNet-5模型对电子

Word2vec-Avg模型来表示每一个句

子,把每一个句子的词向量相加,取

平均值,代表这个句子的句向量,处 理完成后再对数据进行reshape,进行

电子病历在混杂的文本信息中自动抽 取病史信息的问题。2研究方法2.1使用Word2vec模型构建医学文本

词汇的词向量传统的自然语言词语处

病历中的病史信息进行分类。训练。此处使用的CNN网络包含两个

2.3基于长短期记忆网络的文本分类

长短期记忆网络是一种时间递归神经 网络。LSTM在算法中加入了判断信

卷积层和两个池化层,使用训练集进 行300个周期的训练。理方法将词语看作一个符号,被称作

3.2.2基于长短期记忆网络LSTM的

病史信息抽取基于长短期记忆网络

one-hot representation,这种方法导

致词与词之间的关系被独立开,当词 表过大时,向量维度也随着变大。息有用与否的输入门、遗忘门和输出 门,LSTM是解决长序依赖问题的有

LSTM的病史信息抽取模型的主要建立

步骤见图2。效技术。论文利用Word2vec表示词向

\\A/ord2vec的提出解决了这一问

题,Word2vec模型是一种快速训练词

向量模型的方法。使用Word2vec模型 的目的在于从大量的文档医学文本数

量,把句中的词向量拼接成一个序列

在传统的循环神经网络(Recurrent

表示句子信息,每—词向量代表某 —时刻的输入状态,通过长短期记忆 网络模型对病史信息和非病史信息进

Neural Network, RNN )处理序列化的

问题时,可能存在梯度消失或梯度爆发 的问题,为了更好地对病史数据进行分

据中训练出高质量的词向量⑷。研究使 用的电子病历数据是由北京某医院提

供的300多份长病历以及医学名词相关

行模型训练,对电子病历中的病史信 息进行分类。类预测,尝试使用LSTM对序列化的病

历数据进行处理和训练。为了把病历数据转化成可用于

的文档资料,对文档进行预处理,构

建医学病历语料库,进行Word2vec词

3实验设计3.1数据处理将电子病历进行预处

理:分词、去停用词、排除标点符LSTM训练的数据,需要把句子中的

词向量拼接成一个序列来表示这个句 子。由于病历数据中的每一个句子长向量训练,训练方法采用CBOW,构建42或病历的其他项目与病史描述非常相似,从而干扰了分类效果。图3 LSTM训练集的;隹确率利测试集的庭确率愛化傅;515结论使用300份长篇病历和医学名词文

档资料构建语料库,通过Wo「d2vec训 练词向量,然后分别构建CNN模型和

LSTM模型进行病历中病史的提取,且

发现利用对处理序列化病历数据具有

图2基于*短期记忆网给LSTM的病史抽取模型於建立优势的LSTM模型获取病历文本特征并

度不一,需要把病历资料中长度不一的

Si CNN模测结果进行分类,病历分类的精度可得到提

句子统一长度,计算病历中句子的长度

发现,大多数句子的长度在15个词语左

真实结果正例正例反例预测结果反例升。深度学习在电子病历的处理将成

为一种趋势,它对病历的信息抽取和

信息自动分类有着举足轻重的作用,

右,在训练LSTM网络时,对于长度超过

37834015个词语的句子取前15个词向量,对于

长度少于15个词语的句子补上零向量直

到长度为15,统一病历中句子的长度。5为将来医疗文本信息自动分类和结构 化病历信息提供了一种解决方法。今由表格可知模型的准确率

P=0.966 7,查全率/7=0.822 2,查准

率P=0.881 0, F1值=0.850 6。基于

将处理后的病历资料进行一层

LSTM网络的训练,结合网络的输入

门、遗忘门和输出门提取出病历资料的

LSTM的病史信息抽取模型的测试结果

见表2。表2 LSTM楼圉的预测结杲[1] 徐坤.曹锦丹,毕强.FCA在医学领域文本

分类中的研究和应用[J].现代图书情报技 术.2012.28(3):23-26.句子序列特征,再结合多层感知机对句 子序列特征进行训练,在LSTM和多层

真实结果预测结果[2] 夏涵.基于本体的医学命名实体识别技术

研究Q].上海:上海交通大学.2012.

感知机的训练后得出模型预测结果。正例正例反例3728[3] 赵明.杜会芳.董翠翠.等.基于word2vec和

4测试结果与分析实验使用20份医院提供的电子病 历对模型的准确性进行判断,20份病

反例343LSTM的饮食健康文衣分类研究[J]•农业机械

学报,2017,48(10):202-208.由表格可知模型的准确率

[4|曲春燕•中文电子病历命名实体识别研究 [D].哈尔滨:哈尔滨工业大学.2015.

P=0.974 4,查全畅=0.822 2,查准

率P=0.948 7, F1 值=0.881 0。图3显

历中包含45个描述患者病史的句子, 称为正例,345个描述患者主诉、诊

[5|原旎.卢克治.袁玉虎.等.基于深度表示的

中医病历症状表型命名实体抽取研究小.世界

示了 LSTM训练集的准确率和测试集 的准确率变化的情况。实验分析可知

断、个人信息的无关句子,称为反 例,总共390个测试集。科学技术——中医药现代化,2018(3):45-52.LSTM比使用CNN分类效果要好。至于 LSTM和CNN无法准确预测某些少数

测试样本,主要是由于句子长度过短[收稿日期:2018-10-25]基于CNN的病史信息抽取模型的

测试结果见表1。【修回日期:2019-02-20】(责任编辑:肖妖姑)第14卷第3期43

因篇幅问题不能全部显示,请点此查看更多更全内容

Top