面向微博评论的LDA短文本聚类算法研究

发布时间:2024-05-09 20:21
  微博因其评论的便捷性得到了广大民众的喜爱,成为国内最受欢迎的社交媒体平台之一。微博评论具有语义稀疏和高维性等特点,其中往往带有强烈的情感色彩,对微博评论的情感分析是获取用户观点态度的重要途径。目前,LDA主题模型成为微博评论分析领域的研究热点。本论文针对传统LDA在微博评论情感分析方面准确率欠佳的问题,利用特征提取与词共现技术,通过情感主题特征词加权,深入进行了面向微博评论的LDA短文本聚类算法研究,提高语义信息质量,优化微博评论的情感分析聚类效果。主要研究内容如下:第一,介绍LDA主题模型短文本聚类关键技术,主要内容包括LDA主题模型基本原理、特征提取技术、词共现模型。第二,针对传统LDA在主题情感分析和语义提取两方面能力欠佳问题,提出基于情感词共现和知识对特征提取的LDA短文本聚类算法。首先,定义基于情感词共现的词袋,充分考虑情感词在不同短文本间的共现情况,对微博短文本赋予情感极性;然后,分别设计主题特征词和主题关联词构建算法,通过提取主题特征词和主题关联词的知识对集,将其注入到LDA主题模型中进行一次聚类,进而发现更准确的语义信息;最后,对LDA主题模型一次聚类获得的Top30主...

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

图2-1LDA主题模型

图2-1LDA主题模型

第2章LDA主题模型短文本聚类关键技术9第2章LDA主题模型短文本聚类关键技术LDA主题模型是一个经典的主题模型,具有模块化和可扩展等特性,便于被修改和嵌入到其他更复杂的模型中。基于主题模型的文本情感分析技术[44],通过挖掘微博评论所蕴含的主题及其关联的情感特征,提高情感分析的....


图2-2LDA生成模型模拟图

图2-2LDA生成模型模拟图

河北工程大学硕士学位论文10文档中每个词的生成概率为:P,=PP=P=P()P()(2-2)由于P已知,而P()和P()未知,要估计的为参数θ:=P,P()(2-3)LDA把模型的参数也看作随机变量,从而可以引入控制参数的参数,实现彻底的“概率化”。模型包括词项、主题和文档三层结....


图3-1SKP-LDA框架图

图3-1SKP-LDA框架图

第3章基于情感词共现和知识对特征提取的LDA短文本聚类算法17,=,,,(3-7)公式3-7中,Bi是主题T的第i个主题关联词,为主题特征词集中某个单词,为主题关联词集中的某个单词,(,)是用不同单词w和的共现度计算的,此时,,其中“”为评判标准,“”代表可备选入主题关联词集。例....


图3-2情感词共现图模型

图3-2情感词共现图模型

3.2.1微博短文本预处理对微博短文本语料库进行预处理,首先,利用ache爬虫法爬取微博短文本,消除词干、停止词,删除文档频率很低的单词;然后,采用jieba分词软件对短文本进行中文分词;最后,通过LDA主题模型进行降维处理。3.2.2情感词共现本节提出基于情感词....



本文编号:3968531

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3968531.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户6285b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]