当前位置:主页 > 社科论文 > 图书档案论文 >

基于文本挖掘技术的网络热点新闻系统的研建

发布时间:2024-02-07 01:29
  针对新闻内容复杂多样的特性和目前传统的新闻搜索对用户的需求结果不能完全把控的问题,本文的主要工作是研究常用的新闻文本挖掘算法和文本类搜索召回算法的效果和规律,通过分析用户在搜索行为中的搜索词语和新闻文本本身的特性,探索将用户的搜索词语和新闻的文本信息定义并且抽象化为特征的形式,将传统的新闻搜索转化为用户和新闻机器人的对话模式,为进一步提高对用户搜索结果的精准度和使用的满意度提供支撑。为了实现对话形式的智能新闻搜索,首先,选取合适的新闻数据源,编写网络爬虫爬取新闻,本文旨在为用户提供热点新闻,所以爬虫爬取的是网站每日热榜新闻。本文对比了四家主流新闻网站,最终选取新浪新闻网站为系统提供数据。然后,将谷歌提出的基于 Transformer 的双向编码器表征(Bidirectional Encoder Representations from Transformers,BERT)与基于条件随机场和双向长短时记忆神经网络的命名实体识别方法结合作为命名实体识别模型的构建方法,并用BERT优化TextRank的特征抽取和向量化的过程,实现新闻主题和摘要的抽取。用户进行智能对话时,命名实体识别模型识别...

【文章页数】:79 页

【学位级别】:硕士

【部分图文】:

图3.1?BERT算法模型结构??Figure?3.1?BERT?algorithm?model?structure??

图3.1?BERT算法模型结构??Figure?3.1?BERT?algorithm?model?structure??

设计??3.1.1?BERT算法概述??BERT模型是由谷歌发布的一种用来对语言表征进行预训练的模型,它是基于双??向Transformer结构来实现对大规模有监督语料进行预训练,然后获得理解语义的一??种数学模型,可以应用在NLP自然语言处理中,比如聊天机器人、智能问答、自动?....


图3.3关键词标注数据??Figure?3.3?Keyword?annotation?data??(2)数据集的处理??首先从本文采用的实验数据源中获取5000篇新闻数据,采样方式以体育,财经,??

图3.3关键词标注数据??Figure?3.3?Keyword?annotation?data??(2)数据集的处理??首先从本文采用的实验数据源中获取5000篇新闻数据,采样方式以体育,财经,??

?3新闻信息提取算法设计与优化???合本文的算法设计的验证方法,中国科学文献数据集涉及的领域比较广泛,含有各个??领域的文本,对于本文抽取新闻本文的文本类型和意图也相吻合,因此确定用此数据??集合作为本文的卖验数振集合。如图3.2和3.3分别为数据集合的摘要标注数据和关??键词标....


图3.5摘要抽取结果??Figure?3.5?Abstract?extraction?results??

图3.5摘要抽取结果??Figure?3.5?Abstract?extraction?results??

?錄于文本挖掘技术的.网络热点_新_闻系统的研建???计算抽取出来的文章摘要结果。??图3.4关键词权重计算结果??Figure?3.4?Keyword?weight?calculation?results??图3.5摘要抽取结果??Figure?3.5?Abstract?ext....


图3.4关键词权重计算结果??Figure?3.4?Keyword?weight?calculation?results??

图3.4关键词权重计算结果??Figure?3.4?Keyword?weight?calculation?results??

?錄于文本挖掘技术的.网络热点_新_闻系统的研建???计算抽取出来的文章摘要结果。??图3.4关键词权重计算结果??Figure?3.4?Keyword?weight?calculation?results??图3.5摘要抽取结果??Figure?3.5?Abstract?ext....



本文编号:3896530

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3896530.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户eab1f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]