舆情系统中文章相似性分析和摘要生成的研究与实现

发布时间:2023-07-31 19:44
  近年来我国互联网普及率稳步上升,越来越多的网民参与到网络舆情事件的发生、发展与传播过程中,网络舆情数据以指数形式增长。面对海量的舆情数据,如何快速找到社会事件相关的舆情文本并生成摘要性总结,供人们对舆情事件发展作出判断是一件十分有意义的事情。在此背景下,舆情系统应运而生。舆情系统是网络舆情信息的自动采集与分析工具。系统通过网络爬虫从互联网中自动收集舆情数据,通过舆情检索、监测功能帮助用户快速定位到舆情文本,结合数据统计与文本自动摘要功能为用户提供分析报表与文字内容总结,帮助用户全面地了解舆情事件。本文设计并实现了一个针对新闻文本的舆情系统,在研究文章相似性分析与摘要生成技术的基础上,重点实现了系统中的多文本自动摘要功能。本文的具体工作内容包括如下几个方面:1)对文本相似性分析以及文本自动摘要技术的研究进展进行了介绍,分析相关方法的优缺点;2)研究并实现了基于ALN(Association Link Network,关联语义链网络)的文章相似性分析方法。针对ALN语义节点存在多义词的情况,按照词性重新划分,并通过基于位置的节点权重系数,增强语义网络对文本语义信息的表示能力。在使用社区发现...

【文章页数】:87 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 研究目标与内容
    1.3 本文结构与组织
第二章 相关理论与技术
    2.1 文章相似性分析
        2.1.1 基于词袋模型的相似性分析
        2.1.2 基于主题模型的相似性分析
        2.1.3 基于序列化模型的相似性分析
    2.2 文本摘要
        2.2.1 文本摘要的概述
        2.2.2 文本摘要的研究现状
    2.3 本章小结
第三章 基于关联语义链网络的文章相似性分析
    3.1 关联语义链网络
    3.2 事件语义发现方法
        3.2.1 概述
        3.2.2 文本预处理
        3.2.3 构建关联语义链网络
        3.2.4 语义社区发现算法
    3.3 文章相似性分析方法
        3.3.1 文本映射
        3.3.2 重建事件语义社区
    3.4 实验验证
        3.4.1 数据集
        3.4.2 评价标准
        3.4.3 实验结果与分析
    3.5 本章小结
第四章 舆情文本的摘要自动生成
    4.1 基于Seq2Seq框架的短文本摘要模型
        4.1.1 层级化模型概述
        4.1.2 层级化注意力机制
        4.1.3 OOV问题处理
        4.1.4 重复生成问题处理
        4.1.5 实验验证
    4.2 基于网络图结构的多文档摘要生成方法
        4.2.1 LexRank算法
        4.2.2 摘要句得分计算
        4.2.3 冗余处理
        4.2.4 语句排序
        4.2.5 实验验证
    4.3 分段式的多文档摘要生成方法
    4.4 本章小结
第五章 舆情系统的设计与实现
    5.1 用例分析
    5.2 系统架构设计
    5.3 核心功能模块设计
        5.3.1 文本采集模块
        5.3.2 数据预处理模块
        5.3.3 舆情检索模块
        5.3.4 统计分析模块
    5.4 数据结构设计
    5.5 系统主要功能实现
        5.5.1 新闻文本采集
        5.5.2 数据预处理
        5.5.3 舆情检索与舆情监测
        5.5.4 文本自动摘要
    5.6 系统功能验证
    5.7 本章小结
第六章 总结与展望
参考文献
致谢
攻读硕士学位期间已发表或录用的论文



本文编号:3837983

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3837983.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户bde7c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]