基于文本挖掘技术的网络热点新闻系统的研建

发布时间：2024-02-07 01:29

　　针对新闻内容复杂多样的特性和目前传统的新闻搜索对用户的需求结果不能完全把控的问题,本文的主要工作是研究常用的新闻文本挖掘算法和文本类搜索召回算法的效果和规律,通过分析用户在搜索行为中的搜索词语和新闻文本本身的特性,探索将用户的搜索词语和新闻的文本信息定义并且抽象化为特征的形式,将传统的新闻搜索转化为用户和新闻机器人的对话模式,为进一步提高对用户搜索结果的精准度和使用的满意度提供支撑。为了实现对话形式的智能新闻搜索,首先,选取合适的新闻数据源,编写网络爬虫爬取新闻,本文旨在为用户提供热点新闻,所以爬虫爬取的是网站每日热榜新闻。本文对比了四家主流新闻网站,最终选取新浪新闻网站为系统提供数据。然后,将谷歌提出的基于 Transformer 的双向编码器表征(Bidirectional Encoder Representations from Transformers,BERT)与基于条件随机场和双向长短时记忆神经网络的命名实体识别方法结合作为命名实体识别模型的构建方法,并用BERT优化TextRank的特征抽取和向量化的过程,实现新闻主题和摘要的抽取。用户进行智能对话时,命名实体识别模型识别...

【文章页数】：79 页

【学位级别】：硕士

【部分图文】：

图３．１?ＢＥＲＴ算法模型结构??Ｆｉｇｕｒｅ?３．１?ＢＥＲＴ?ａｌｇｏｒｉｔｈｍ?ｍｏｄｅｌ?ｓｔｒｕｃｔｕｒｅ??

设计??３．１．１?ＢＥＲＴ算法概述??ＢＥＲＴ模型是由谷歌发布的一种用来对语言表征进行预训练的模型，它是基于双??向Ｔｒａｎｓｆｏｒｍｅｒ结构来实现对大规模有监督语料进行预训练，然后获得理解语义的一??种数学模型，可以应用在ＮＬＰ自然语言处理中，比如聊天机器人、智能问答、自动?....

图３．３关键词标注数据??Ｆｉｇｕｒｅ?３．３?Ｋｅｙｗｏｒｄ?ａｎｎｏｔａｔｉｏｎ?ｄａｔａ??（２）数据集的处理??首先从本文采用的实验数据源中获取５０００篇新闻数据，采样方式以体育，财经，??

?３新闻信息提取算法设计与优化???合本文的算法设计的验证方法，中国科学文献数据集涉及的领域比较广泛，含有各个??领域的文本，对于本文抽取新闻本文的文本类型和意图也相吻合，因此确定用此数据??集合作为本文的卖验数振集合。如图３．２和３．３分别为数据集合的摘要标注数据和关??键词标....

图３．５摘要抽取结果??Ｆｉｇｕｒｅ?３．５?Ａｂｓｔｒａｃｔ?ｅｘｔｒａｃｔｉｏｎ?ｒｅｓｕｌｔｓ??

?錄于文本挖掘技术的．网络热点＿新＿闻系统的研建???计算抽取出来的文章摘要结果。??图３．４关键词权重计算结果??Ｆｉｇｕｒｅ?３．４?Ｋｅｙｗｏｒｄ?ｗｅｉｇｈｔ?ｃａｌｃｕｌａｔｉｏｎ?ｒｅｓｕｌｔｓ??图３．５摘要抽取结果??Ｆｉｇｕｒｅ?３．５?Ａｂｓｔｒａｃｔ?ｅｘｔ....

图３．４关键词权重计算结果??Ｆｉｇｕｒｅ?３．４?Ｋｅｙｗｏｒｄ?ｗｅｉｇｈｔ?ｃａｌｃｕｌａｔｉｏｎ?ｒｅｓｕｌｔｓ??

?錄于文本挖掘技术的．网络热点＿新＿闻系统的研建???计算抽取出来的文章摘要结果。??图３．４关键词权重计算结果??Ｆｉｇｕｒｅ?３．４?Ｋｅｙｗｏｒｄ?ｗｅｉｇｈｔ?ｃａｌｃｕｌａｔｉｏｎ?ｒｅｓｕｌｔｓ??图３．５摘要抽取结果??Ｆｉｇｕｒｅ?３．５?Ａｂｓｔｒａｃｔ?ｅｘｔ....

本文编号：3896530

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/tushudanganlunwen/3896530.html

上一篇：省级公共图书馆网站信息无障碍建设调查研究
下一篇：基于微阅读时代背景图书馆立德树人实施策略

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|