当前位置:主页 > 社科论文 > 图书档案论文 >

面向科技文献的主题发现及演化预测方法研究与应用

发布时间:2024-03-08 19:43
  随着大数据时代的到来,快速精准地从科技文献中识别和预测热点科研主题是帮助科研工作者了解特定科研领域研究现状的重要手段。从海量的学术文献中获取科研热点及科研主题的演化趋势,不仅可以帮助科研人员节约大量人力物力,同时还可以帮助诸多科技创新主体和科技政策制定者从宏观、全局的角度出发,全面深入的了解相关科研领域的现状和未来趋势。因此识别科技领域的热点主题和对主题热度的趋势预测具有重大的现实意义。基于以上背景,本文以科技主题识别和热度预测为核心,提出了面向科技文献的在线主题模型和主题演化预测方法,并在此基础之上设计实现了科技信息智能分析预测系统。本文的主要研究内容和工作如下:(1)提出了一种IOLDA(Improved OLDA)在线主题模型。针对传统OLDA模型由于内容演化矩阵的权重固定导致的新旧主题混合等问题,提出了动态权重计算方法;并结合主题相似度矩阵构建了伪变长的主题内容演化矩阵,改进了主题模型的建模效果。针对本文提出的IOLDA在线主题模型,使用科技文献数据集进行实验。实验结果表明,IOLDA模型在困惑度等指标上要优于其他模型。(2)提出了一种面向主题热度的ESA(EEMD-SVR-A...

【文章页数】:90 页

【学位级别】:硕士

【部分图文】:

图2-2OLDA概率图模型

图2-2OLDA概率图模型

第二章相关工作基础11设置相应的权重值,以此作为当前时间片中主题建模的先验参数。内容演化矩阵不仅代表了历史时间片的主题信息对当前时间片的主题建模过程的不同影响力,也保证了主题建模过程的连续性。其中,主题模型的先验计算如公式(2-2)所示:=1(2-2)其中代表时间片t中主题k的先....


图3-1IOLDA概率图模型

图3-1IOLDA概率图模型

第三章面向科技文献的IOLDA主题模型研究21图3-1IOLDA概率图模型3.3IOLDA模型的生成过程和算法过程3.3.1IOLDA模型的文本生成过程传统的OLDA在线主题模型的文本生成过程如下:在某个时间片中,首先从主题分布中抽取一个主题;然后根据该主题的词分布抽取一个词汇;....


图3-3科技文献存储形式

图3-3科技文献存储形式

电子科技大学硕士学位论文24实验过程将会使用人工和自动的方式去除一些重复信息,同时针对部分缺失数据将会进行人工填充,以减少对接下来实验的影响。图3-3科技文献存储形式图3-4机器学习领域每年度文献数量3.4.1.3文本分词传统LDA主题模型是一种词袋模型,即不考虑词汇的文法和顺序....


图3-4机器学习领域每年度文献数量

图3-4机器学习领域每年度文献数量

电子科技大学硕士学位论文24实验过程将会使用人工和自动的方式去除一些重复信息,同时针对部分缺失数据将会进行人工填充,以减少对接下来实验的影响。图3-3科技文献存储形式图3-4机器学习领域每年度文献数量3.4.1.3文本分词传统LDA主题模型是一种词袋模型,即不考虑词汇的文法和顺序....



本文编号:3922300

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3922300.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户0684b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]