依存语法树在中文问题分类中的应用研究

发布时间:2024-04-08 19:20
  问题分类是自动问答系统中的关键技术,能够有效地缩减答案的搜索空间,提高问答系统的准确性和效率。对于中文问题而言,由于汉语存在意合性、无时态变化以及语序的灵活性等特点,其分类特征的提取也更加困难。因此,本文从中文问题依存语法树出发,研究分类特征提取及其在问题分类中应用问题。本文的主要研究工作如下:(1)问题中心词是问题分类时重要的特征,针对现有的中文问题中心词识别率不高的问题,本文设计了从问题依存语法树集合中挖掘频繁子树模式并进行模式精简的方法,以获取中心词与问题依存树局部结构特征的之间的关联关系。据此提出了基于双向门控循环单元(BiGRU)与精简频繁子树模式相结合的中心词识别方法,先利用BiGRU对问题中心词进行初始标注,再选用高置信度的频繁子树规则对初始标注结果进行校正。实验结果表明,该方法可以有效提升中心词的识别率。(2)研究分析了中文问题及其对应的依存语法树,本文发现问题句中不同词汇对问题分类的重要性差异很大,词汇的依存距离与其重要性之间存在着关联关系。现有基于深度学习的问题分类模型未能充分利用依存距离信息。本文提出了一种结合依存距离特征与语义特征的注意力机制,可用于计算问题中各...

【文章页数】:70 页

【学位级别】:硕士

【文章目录】:
致谢
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 本文主要研究内容
    1.4 问题分类体系与数据集
    1.5 本文主要组织结构
    1.6 本章小结
第二章 中文问题分类
    2.1 问题分类的概念
    2.2 基于支持向量机的问题分类模型
        2.2.1 问题特征提取
        2.2.2 支持向量机分类器
    2.3 相关深度学习技术
        2.3.1 词向量
        2.3.2 循环神经网络
        2.3.3 门控循环单元
    2.4 基于双向门控循环单元的问题分类模型
        2.4.1 模型输入
        2.4.2 特征提取
        2.4.3 特征融合
        2.4.4 问题分类
        2.4.5 模型训练
    2.5 本章小结
第三章 基于精简频繁子树规则的中心词提取方法
    3.1 引言
    3.2 频繁子树模式
        3.2.1 问题的依存语法树
        3.2.2 频繁子树
        3.2.3 频繁子树规则
    3.3 基于密度的频繁子树模式精简方法
        3.3.1 频繁子树的精简方法
        3.3.2 频繁子树规则的精简方法
    3.4 中文问题中心词识别方法
        3.4.1 问题中心词的初始标注
        3.4.2 中文问题中心词的再标注
    3.5 实验结果与分析
        3.5.1 实验设置
        3.5.2 中心词标注性能
        3.5.3 频繁子树压缩效果
        3.5.4 规则精简情况对比
    3.6 本章小结
第四章 基于注意力机制的中文问题分类模型
    4.1 引言
    4.2 基于依存特征的注意力机制
        4.2.1 问题分类时的注意力分析
        4.2.2 注意力机制模型
        4.2.3 依存距离的特征向量
    4.3 中文问题深度分类模型
        4.3.1 输入数据
        4.3.2 双向GRU语义特征计算模型
        4.3.3 注意力计算模块
        4.3.4 分类输出层
        4.3.5 模型训练
    4.4 实验结果与分析
        4.4.1 实验设置
        4.4.2 中文问题分类性能
        4.4.3 注意力机制效果
        4.4.4 词向量对于分类性能的影响
    4.5 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
攻读硕士学位期间的学术活动及成果情况



本文编号:3948687

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3948687.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户a70cd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]