基于双层标注的中文电子病历命名实体识别

发布时间:2023-10-22 10:39
  计算机信息技术的发展带来了海量的医疗数据。作为临床信息系统最重要的组成部分,电子病历记录了患者诊疗过程中的详细信息,包含了众多宝贵的医疗资源。电子病历中的自由文本以半结构或是无结构的形式存在,要将这些非结构化的病历数据所包含的有效信息快速提取出来,采用自然语言处理技术进行文本挖掘是必不可少的。命名实体识别是文本数据挖掘的关键技术,因此,对电子病历中的医疗实体进行识别具有重要作用。本研究提出了一种基于领域词典和条件随机场的双层标注模型。该模型通过构建一个小规模的医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,对中文电子病历中的疾病、症状、操作、药品四类医疗实体进行识别。同时对比分析了深度神经网络的识别效果。本文的主要内容包括以下部分:(1)利用统计方法从中文电子病历中获取关键词以及利用外部专业资源获取关键词这两种途径构建领域词典,并标注中文电子病历命名实体识别标注语料库。(2)基于双层标注的中文电子病历命名实体识别。将富含领域知识的领域词典与序列标注算法CRF相结合,提出了一种一次预标注-二次精确标注的双层标注模型。通过两次不同粒度的标注,将领域词典的准确性和机器学习的自动性融...

【文章页数】:58 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 研究现状
        1.2.1 通用领域命名实体识别研究现状
        1.2.2 电子病历命名实体识别研究现状
    1.3 本文主要研究内容
    1.4 本文组织结构
第二章 基于双层标注的中文电子病历命名实体识别
    2.1 中文电子病历文本语言特点
    2.2 领域词典构建
        2.2.1 统计方法构建领域词典
        2.2.2 外部专业资源构建领域词典
    2.3 条件随机场模型原理介绍
    2.4 基于领域词典和条件随机场的双层标注模型
    2.5 实验准备
        2.5.1 特征模板
        2.5.2 实验数据集及评估方法
    2.6 实验结果与分析
    2.7 本章小结
第三章 双层标注模型与深度学习对医疗实体识别的比较
    3.1 深度学习处理命名实体识别问题原理
        3.1.1 Bi LSTM-CRF
        3.1.2 Transformer-CRF
    3.2 深度神经网络的领域预处理
    3.3 实验结果与分析
        3.3.1 深度学习的对比分析
        3.3.2 深度学习方法与双层标注模型的对比分析
    3.4 本章小结
第四章 双层标注模型的其他应用
    4.1 双层标注模型对不区分科室病历的普适性
    4.2 真实儿科病历医疗实体识别
    4.3 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢



本文编号:3856353

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3856353.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户b9e64***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]