基于特征表示的中文极短文本分类方法研究

发布时间：2023-07-24 20:29

　　近年来,短文本分类研究取得了重要的进展。然而,现有的大多数方法只关注如Twitter或微博等数据,其文本长度通常不超过300个字符。然而,在实际应用领域,如新闻标题、发票名称等文本的分类问题中,文本具有长度极短、特征稀疏、语义模糊等特性,使得已有的短文本分类方法难以取得理想的效果。针对以上问题,本文基于特征表示学习的方法,围绕新闻标题和发票名称等极短文本数据的分类问题展开研究,主要工作如下:(1)针对发票名称文本长度极短和特征稀疏的问题,提出一种基于双向语义扩展的极短文本分类方法(BSE-ESTC)。首先,为缓解文本极短带来的特征稀疏问题,分别对文本中的词和类标签属性词进行双向近义词查询,再将这些近义词添加到分词结果之中,进行语义扩展,以达到扩大极短文本特征量的目的;其次,为了避免稀疏性导致的语义模糊问题,使用哈希向量化方法对分词结果进行向量化并分类。实验结果表明:所提方法在税务发票数据上具有优异的性能。(2)针对中文极短文本语义高度模糊的问题,将注意力机制与通过字符嵌入特征选择相结合,提出了一种基于字符嵌入的中文极短文本的混合分类方法(AFC)。该方法首先用中文字符嵌入向量对文本进行...

【文章页数】：58 页

【学位级别】：硕士

【文章目录】：
致谢
摘要
abstract
第一章绪论
    1.1 研究背景
    1.2 问题描述
    1.3 本文的主要工作和创新点
    1.4 本文组织结构
    1.5 本章小结
第二章短文本分类综述
    2.1 引言
    2.2 短文本分类方法总结
    2.3 基于特征扩展的方法
        2.3.1 基于链接的方法
        2.3.2 基于Web搜索的方法
        2.3.3 基于分类的方法
        2.3.4 基于主题的方法
    2.4 基于长文本分类方法的改进方法
        2.4.1 基于表示学习的方法
        2.4.2 基于注意力机制的方法
        2.4.3 基于特征选择的方法
    2.5 本章小结
第三章基于双向语义扩展的极短文本分类方法研究
    3.1 引言
    3.2 BSE-ESTC算法描述
        3.2.1 主要框架介绍
        3.2.2 中文分词
        3.2.3 双向语义扩展
        3.2.4 Signed Hash Trick方法
    3.3 实验与分析
        3.3.1 实验数据集
        3.3.2 对比算法
        3.3.3 实验结果与分析
        3.3.4 实验方法分析
        3.3.5 税务发票名称检索系统
    3.4 本章小结
第四章基于字符嵌入的中文极短文本混合分类方法研究
    4.1 引言
    4.2 AFC算法描述
        4.2.1 基于字符嵌入的中文极短文本混合分类模型
        4.2.2 字符嵌入表示
        4.2.3 注意力机制
        4.2.4 极短文本特征选择
    4.3 实验与分析
        4.3.1 实验数据集
        4.3.2 基准算法和参数设定
        4.3.3 实验结果与分析
        4.3.4 AFC性能分析
    4.4 本章小结
第五章总结与展望
    5.1 本文总结
    5.2 未来展望
参考文献
攻读硕士学位期间的学术活动及成果情况

本文编号：3836465

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3836465.html

上一篇：基于活跃度布局的图处理访存优化
下一篇：基于多尺度信息和注意力的立体匹配算法

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|