基于短文本聚类的网络舆情数据分析

发布时间:2024-04-20 05:47
  互联网舆论是指公众通过互联网平台发布、表达自己对社会热点事件的看法和评论。随着“互联网+”的迅速发展,社交媒体巧妙地改变了人们在社会中的互动方式。越来越多的人通过社交网络平台如微博、微信和论坛交流,而短文本数据被广泛使用,并且存在于这些社交媒体中。短文本数据承载大量的用户信息,同时传输公共信息,各式各样的短文本数据充斥着网络,进而形成网络舆情。如何更好地处理短文本数据和发现舆情数据隐藏的主题词已经成为网络舆情数据分析的一个重要研究内容。本文针对短文本聚类和网络舆情主题词挖掘过程中存在的局限性,减少短文本特征稀疏对网络舆情数据分析的影响。因此,借助于机器学习聚类算法,改进了传统的K均值聚类算法。中心思想是优化第一阶段的Canopy算法预处理。把每次Canopy算法形成的重叠子集称之为覆盖集,并且不像传统的K-means算法考虑每个点到所有中心的距离。而是计算点到其所属覆盖集中心的距离。随着K-means算法的迭代,每个覆盖集中心将继续变化,直到收敛为止。在此基础上,提出了BK-means聚类算法。网络舆情数据分析提出了一种基于BTM的舆情主题词挖掘模块,通过改进TF-IDF权重算法以减少...

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

图1-1移动互联网接入流量在Web1.0时代,公众通过两种方式获取信息:静态浏览和单向阅读

图1-1移动互联网接入流量在Web1.0时代,公众通过两种方式获取信息:静态浏览和单向阅读

1.1研究背景及意义舆论在互联网中的含义是指,人们对于社会中的各种现象和问题所持有的信念、态度、观点和情感,通过网络表达的总和。它可以对社会发展和相关过程产生影响,并与理性和非理性因素相结合。武汉大学媒体发展研究中心与社会科学文献出版社共同发布“传播创新蓝皮书”,中国传播创新研....


图4-2本次实验生成的voca.txt的部分截图

图4-2本次实验生成的voca.txt的部分截图

2w3……N-1wn表4-2doc_wids.txt的输入格式dWW……WndWW……WndWW……Wn……dmWmWm……Wmnm利用VS2015开发工具编写代码处理数据集,生成的两个文档:voca.txt、doc_wids.....


图4-3本次实验生成的docwids.txt的部分截图

图4-3本次实验生成的docwids.txt的部分截图

图4-3本次实验生成的doc_wids.txt的部分截图4.3.2改进的TF-IDF算法TF-IDF权重算法作为一种无监督的统计方法[44],它虽然可以发现文本中某一词语的重要性,但是由于没有考虑权重以及词语歧义的影响,理论支撑不够。因此,科研学者们为了让TF-....


图4-4实验项目图

图4-4实验项目图

图4-4实验项目图4.4.4实验结果.4.4.1改进的TF-IDF与TF-IDF的F值本实验采用的聚类评价指标是F-measure值,其值越大,聚类效果越好。通过图4-可知,改进的TF-IDF算法相较于传统的方法而言,话题聚类效果的F值有明显的....



本文编号:3958968

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3958968.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户51b43***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]