基于特征表示的中文极短文本分类方法研究

发布时间:2023-07-24 20:29
  近年来,短文本分类研究取得了重要的进展。然而,现有的大多数方法只关注如Twitter或微博等数据,其文本长度通常不超过300个字符。然而,在实际应用领域,如新闻标题、发票名称等文本的分类问题中,文本具有长度极短、特征稀疏、语义模糊等特性,使得已有的短文本分类方法难以取得理想的效果。针对以上问题,本文基于特征表示学习的方法,围绕新闻标题和发票名称等极短文本数据的分类问题展开研究,主要工作如下:(1)针对发票名称文本长度极短和特征稀疏的问题,提出一种基于双向语义扩展的极短文本分类方法(BSE-ESTC)。首先,为缓解文本极短带来的特征稀疏问题,分别对文本中的词和类标签属性词进行双向近义词查询,再将这些近义词添加到分词结果之中,进行语义扩展,以达到扩大极短文本特征量的目的;其次,为了避免稀疏性导致的语义模糊问题,使用哈希向量化方法对分词结果进行向量化并分类。实验结果表明:所提方法在税务发票数据上具有优异的性能。(2)针对中文极短文本语义高度模糊的问题,将注意力机制与通过字符嵌入特征选择相结合,提出了一种基于字符嵌入的中文极短文本的混合分类方法(AFC)。该方法首先用中文字符嵌入向量对文本进行...

【文章页数】:58 页

【学位级别】:硕士

【文章目录】:
致谢
摘要
abstract
第一章 绪论
    1.1 研究背景
    1.2 问题描述
    1.3 本文的主要工作和创新点
    1.4 本文组织结构
    1.5 本章小结
第二章 短文本分类综述
    2.1 引言
    2.2 短文本分类方法总结
    2.3 基于特征扩展的方法
        2.3.1 基于链接的方法
        2.3.2 基于Web搜索的方法
        2.3.3 基于分类的方法
        2.3.4 基于主题的方法
    2.4 基于长文本分类方法的改进方法
        2.4.1 基于表示学习的方法
        2.4.2 基于注意力机制的方法
        2.4.3 基于特征选择的方法
    2.5 本章小结
第三章 基于双向语义扩展的极短文本分类方法研究
    3.1 引言
    3.2 BSE-ESTC算法描述
        3.2.1 主要框架介绍
        3.2.2 中文分词
        3.2.3 双向语义扩展
        3.2.4 Signed Hash Trick方法
    3.3 实验与分析
        3.3.1 实验数据集
        3.3.2 对比算法
        3.3.3 实验结果与分析
        3.3.4 实验方法分析
        3.3.5 税务发票名称检索系统
    3.4 本章小结
第四章 基于字符嵌入的中文极短文本混合分类方法研究
    4.1 引言
    4.2 AFC算法描述
        4.2.1 基于字符嵌入的中文极短文本混合分类模型
        4.2.2 字符嵌入表示
        4.2.3 注意力机制
        4.2.4 极短文本特征选择
    4.3 实验与分析
        4.3.1 实验数据集
        4.3.2 基准算法和参数设定
        4.3.3 实验结果与分析
        4.3.4 AFC性能分析
    4.4 本章小结
第五章 总结与展望
    5.1 本文总结
    5.2 未来展望
参考文献
攻读硕士学位期间的学术活动及成果情况



本文编号:3836465

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3836465.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户70f4d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]