基于循环神经网络的中文影像报告命名实体识别研究

发布时间:2023-08-06 19:21
  快速发展的医疗信息系统产生了海量的临床文本,它们用文本形式记录了大量的健康信息,是改善临床护理和支持研究的宝贵信息来源,同时这些海量、非结构化数据也给自动管理和高效利用提出了巨大的挑战。影像报告是一种典型的临床文本,从非结构化的影像报告中抽取医疗概念,可以为病历分类、精细患者分群以及自动问答系统等提供支持。中文影像报告作为一种专业临床文本,具有鲜明的语言特点和更为复杂的语言形式,同时中文临床文本缺少公开标注语料,所以相比较通用领域文本,中文影像报告的分析应用面临更大的困难。本文针对中文影像报告,研究命名实体识别的方法,主要工作包括以下几个方面:第一,参考I2B2标注体系,结合中文影像报告的特点,在医务人员的指导下,本文制定了影像报告命名实体识别的标注方案,分别建立了规模为39954个字符的分词标注与分字标注的影像报告语料库。第二,根据手工创建的影像报告标注语料库,以双向循环神经网络为基本框架,本文基于LSTM单元、GRU单元和条件随机场设计了三种不同的中文影像报告命名实体识别模型。第三,本文通过影像报告语料库训练构建的中文影像报告命名实体识别模型,并通过实验对模型的性能进行评估和分析;...

【文章页数】:62 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 研究现状
        1.2.1 命名实体识别
        1.2.2 医疗领域的命名实体识别
        1.2.3 电子病历语料库构建
    1.3 本文研究
    1.4 组织结构
第二章 相关背景知识
    2.1 隐马尔可夫模型
    2.2 条件随机场
    2.3 循环神经网络
    2.4 LSTM单元和GRU单元
    2.5 本章小结
第三章 影像报告语料库构建
    3.1 影像报告的标注体系和方法
        3.1.1 影像报告的特点
        3.1.2 命名实体分类
    3.2 影像报告的语料库
        3.2.1 影像报告数据
        3.2.2 影像报告分词标注
        3.2.3 影像报告分字标注
    3.3 本章小结
第四章 神经网络的中文影像报告命名实体识别模型
    4.1 模型的基本框架
    4.2 输入层
    4.3 特征提取层
        4.3.1 BLSTM
        4.3.2 BGRU
        4.3.3 GRU-LSTM
    4.4 输出层
    4.5 本章小结
第五章 实验与分析
    5.1 实验环境和评价指标
    5.2 实验设计
    5.3 实验结果与分析
        5.3.1 模型性能和比较
        5.3.2 Dropout对性能的影响
        5.3.3 词向量及优化器对性能的影响
        5.3.4 分字标注与分词标注对性能的影响
    5.4 本章小结
第六章 影像报告命名实体识别的原型系统
    6.1 系统设计
    6.2 系统展示
    6.3 本章小结
第七章 总结与展望
    7.1 本文总结
    7.2 不足和展望
参考文献
致谢



本文编号:3839906

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3839906.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户7da67***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]