基于word2vec情感分析系统的研究

发布时间:2024-02-22 16:42
  情感分析,通常也称情感极性分类,是指用来挖掘一段文本所蕴含感情的方法,通常有三种状态:偏积极、偏消极和偏中性。随着互联网的蓬勃发展,社交型网络平台对人们的影响越来越大,大量网络用户在各种平台上会产生海量信息,其中以文本、图片、视频居多。其中,文本在某种程度上可以代表用户对某一事件的态度,例如可对某一电影或者商品的评价在情感上根据偏积极、偏消极或偏中性进行分类,就可以判断某一电影或者商品是否受用户欢迎,同时对这一电影或者商品之后的营销也会起到一定的指导作用。本文主要获取了商品评论以及电影评论数据,提出了基于word2vec的情感分析方法。首先,通过爬虫技术,在互联网上爬取了相当数量的评论数据,以此来构建本文所使用的数据集,解决了缺少公开情感分析数据集的问题。并对其进行文本清洗、文本归一化、中文分词、情感极性标注等一系列数据预处理工作,得到文本评论语料;在语料之上,构建了本文所使用的数据集,其中训练集占数据总量的70%,测试集占数据总量的30%;同时为了便于快速计算TF-IDF的值,构建了相应的情感词典;通过word2vec模型训练了词向量集,作为后续模型的输入。其次,本文提出了一种基于位...

【文章页数】:76 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题研究背景及意义
    1.2 相关工作研究概况
        1.2.1 词语表示研究概况
        1.2.2 注意力机制研究概况
        1.2.3 情感分析研究概况
    1.3 本文的主要研究内容
    1.4 本文的组织结构
第2章 相关技术介绍
    2.1 数据采集技术
        2.1.1 基于API的数据采集方法
        2.1.2 基于网络爬虫的数据采集方法
        2.1.3 Scrapy框架
    2.2 数据预处理技术
        2.2.1 数据预处理
        2.2.2 分词与停用词处理
    2.3 词语表示技术
        2.3.1 词的离散表示
        2.3.2 词的分布表示
        2.3.3 CBOW模型
        2.3.4 Skip-Gram模型
        2.3.5 CBOW和 Skip-Gram模型的优化方法
            2.3.5.1 分层Softmax优化法
            2.3.5.2 负采样优化法
    2.4 文本语义表示技术
        2.4.1 TF-IDF方法
        2.4.2 word AVG方法
        2.4.3 注意力机制方法
    2.5 本章小结
第3章 数据采集
    3.1 整体设计
    3.2 网站分析
    3.3 系统的实现
        3.3.1 配置文件的设计
        3.3.2 存储字段的设计
        3.3.3 数据存储过程的设计
        3.3.4 中间件的设计
        3.3.5 Spider的设计
        3.3.6 配置文件的设计
    3.4 系统运行
    3.5 数据清洗及归一化
    3.6 本章小结
第4章 基于word2vec文本情感分析
    4.1 情感分析整体流程
    4.2 数据集的构建
    4.3 情感词典的构建
    4.4 词向量的构建
    4.5 情感分析模型
        4.5.1 CNN模型
        4.5.2 LSTM模型
        4.5.3 word2vec与 TF-IDF融合模型
    4.6 实验与结果分析
        4.6.1 实验及评价指标
        4.6.2 结果与分析
    4.7 本章小结
第5章 情感分析系统的实现
    5.1 开发环境
    5.2 系统架构
    5.3 系统实现
        5.3.1 情感分析模块
        5.3.2 工具模块
    5.4 系统测试
        5.4.1 情感分析模块
        5.4.2 工具模块测试
    5.5 本章小结
第6章 结论
参考文献
致谢
作者简介



本文编号:3906961

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3906961.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户51aa8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]