基于多因素特征的文本分类的研究

发布时间:2024-02-22 09:43
  传统对电商评论做分类的方法使用词袋模型或者简单的提取文本TF-IDF特征方法使用SVM或者传统机器学习模型对评论文本进行分类,近些年尝试单一使用Word2Vec词嵌入等静态词向量作为表示使用LSTM等神经网络模型对文本进行分类,虽然都有一定的效果,但还是无法满足用户与商家对准确率的要求。本文对词向量表示和分类模型方面做了很多尝试,本文主要工作内容如下:(1)文本同时使用商品品论文本和非文本特征,文本同时使用商品评论文本和评论的点赞数、追加评论数等非文本信息,并在非文本特征基础上添加从文本信息中提取的TF-IDF特征与这些非文本特征信息结合作为非文信息附加的额外特征,并使用Lightgbm模型对这部分特征进行分类,并作为基于多维特征因素模型的重要一部分。(2)文本使用多种词向量作为文本表示。相较与以往单一使用一种词向量作为词语的表示,文本同时使用Word2Vec和GloVe两种词向量作为文本的表示,并使用在同一中分类模型下实验验证使用混合词向量模型相较于使用单一词向量F1值和ROC值提升1.7%左右。(3)文本使用了动态词向量。使用静态词向量一个词对应一个固定的词向量,会造成歧义的问题,...

【文章页数】:77 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 研究现状
        1.2.1 文本表示的研究现状
        1.2.2 文本分类的研究现状
    1.3 本文的主要工作内容
    1.4 本论文的结构安排
第二章 文本分类相关方法概述
    2.1 文本分类主要步骤
    2.2 中文文本预处理方法
        2.2.1 数据增强
        2.2.2 去停用词
        2.2.3 文本分词
    2.3 文本表示方法
        2.3.1 向量空间模型(VSM)
        2.3.2 LDA主题模型
        2.3.3 Word Embedding表示
    2.4 文本分类算法
        2.4.1 逻辑回归模型
        2.4.2 支持向量机模型(SVM)
        2.4.3 GBDT模型
        2.4.4 神经网络分类模型
    2.5 本章小结
第三章 数据预处理以及数据表示方法
    3.1 商品评论数据和外部特征的获取
    3.2 数据预处理
        3.2.1 文本数据清洗
        3.2.2 文本分词及去停用词
    3.3 数据分析
    3.4 文本数据特征表示方法
        3.4.1 词向量表示
        3.4.2 基于Elmo的表示方法
    3.5 本章小结
第四章 基于多因素特征的分类模型
    4.1 TRANSFORMER模型
        4.1.1 Scaled Attention
        4.1.2 Multi-head Attention
        4.1.3 引入位置信息 Position Encoding
    4.2 LIGHTGBM模型
    4.3 基于多因素特征的分类模型构造
    4.4 本章小结
第五章 实验与结果分析
    5.1 实验设计
        5.1.1 实验环境
        5.1.2 评价指标
        5.1.3 实验方案以及具体设计
    5.2 实验结果分析
        5.2.1 实验一和实验二对比分析
        5.2.2 实验三、实验四和实验五对比分析
        5.2.3 实验六结果分析
        5.2.4 实验七结果分析
    5.3 本章小结
第六章 总结与展望
    6.1 全文总结
    6.2 展望
致谢
参考文献
攻读硕士学位期间取得的成果



本文编号:3906609

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3906609.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户d29d0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]