当前位置:主页 > 社科论文 > 图书档案论文 >

基于主题模型的知识结构发现及其演化机理研究

发布时间:2024-04-21 15:10
  科学研究的泛化、交叉和渗透使各领域研究呈现出交错复杂的局面,研究内容的多样化为我们理解与掌握知识内在结构及其演化机理带来一定的困扰,浩瀚的知识和有限的个人精力之间的矛盾不可避免。尤其对新接触某领域的学者来说,想要全面、快速了解该领域的知识结构及其演化机理往往需要很多的工作量。分散的知识点、非结构化的信息不利于知识结构的形成,也阻碍了演化研究的进一步开展。针对这一问题,本文提出一种层次化的科学知识结构发现方法,并在此基础上进行知识主题演化和预测,进而分析科学领域的研究现状与发展趋势。论文的主要工作分为以下两个方面:(1)层次化科学知识结构发现。在对目前主流的知识结构发现方法进行归纳分析的基础上,运用LDA主题模型设计了层次化科学知识结构发现框架。该框架自上而下分为数据层、逻辑层和展示层。首先,在文献预处理部分,抽取语料库中的“双连词”作为主题模型建模文件的输入,大大提升了主题的可表征性,使得到的知识主题更契合普遍认知,易于理解。其次,引入主题间平均相似性,在保证主题间区分度的基础上确定知识结构终止层。另外,还设计了在“文档-主题”概率矩阵中自动筛选阈值的算法,平衡主题质量和文档范围之间的...

【文章页数】:92 页

【学位级别】:硕士

【部分图文】:

图2.1LDA模型概率图

图2.1LDA模型概率图

图2.1LDA模型概率图其中,深灰色圆圈表示可观测的变量,白色圆圈表示隐变量;两变量间的条件用箭头指向表明;黑色方框表示重复抽样,方框中的字母代表重复抽样的次数。对于LDA模型的生成过程,“到k”生成“主题-词项”分布,“到m”生K


图2.2PLSA与LDA模型生成文本的过程

图2.2PLSA与LDA模型生成文本的过程

图2.2PLSA与LDA模型生成文本的过程可以看出,在PLSA中,主题分布和词分布确定之后,会以一定的概率kipzd来选取一个主题,以概率jkpwz来选取具体的词语,从而生成文档。对于已经生成的文档,反过来推算它的主题分布和词语分布,最后用EM算法....


图2.3隐马尔可夫模型示意图

图2.3隐马尔可夫模型示意图

图2.3隐马尔可夫模型示意图型涉及到的问题分为以下三类:计算问题,对于确定的模型参数计算在模型下观测序列O出现的可能性PO,


图3.3文档-主题概率分布矩阵(部分)

图3.3文档-主题概率分布矩阵(部分)

图3.3文档-主题概率分布矩阵(部分)对于一个“文档-主题”概率分布矩阵,我们首先筛选出每一行的最些值中的最小值,该值即可作为下层主题文献子集的截取阈值。用主题中文档m隶属主题k的概率,其中m为文献编号,1mw



本文编号:3961059

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3961059.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户bd80f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]