面向学术文献数据的同名作者消歧方法研究

发布时间：2024-03-25 19:18

　　随着全球学术研究活动的蓬勃发展,学术文献的发表数量与日俱增。为了应对海量学术文献的组织和管理挑战,以互联网技术为基础诞生的一系列学术文献数据库、学术搜索平台以及近几年兴起的学术知识图谱等,正改变着我们对学术文献的组织、管理、查询和获取方式。然而,由于学术文献中广泛存在的作者同名现象,使得许多同名作者的学术文献无法较好的区分开来。譬如在学术信息检索场景中,基于作者名的文献检索方式无法精准获取到对应作者的学术文献。此外,学术文献作者名歧义也给情报学、文献计量学等相关研究领域带来了不小的困扰,影响了学术评价的准确性。因此,对学术文献中存在的同名作者进行消歧至关重要。在此背景下,本文研究了学术文献中的同名作者消歧问题,主要针对冷启动消歧和增量消歧两个应用场景。整体而言,本文的主要内容和创新点可以概括为两个方面:(1)针对学术文献同名作者消歧的冷启动场景,提出了一种融合异质图网络特征和学术文献语义特征的消歧方法。该方法根据学术文献、学者及学者所在机构之间的关系构成异质图网络,借助元路径随机游走算法获取学术文献的关系表示向量。然后利用Word2Vec训练并提取学术文献数据中的语义特征,构成学术文献...

【文章页数】：97 页

【学位级别】：硕士

【部分图文】：

图1-11936-2019年间各年文献出版数量当前，学术文献数目的不断累积和递增，是产生一系列学术信息爆炸问题的

华东师范大学硕士学位论文1第一章绪论1.1研究背景与意义近现代以来，随着世界科学研究的蓬勃发展，各类学术文献数量正以惊人的速度不断增长着。依据文献增长规律来看，据不完全估计，世界上非学术类的文献数量翻一番的时间大概为三十年到五十年,而学术科研工作所产生的学术文献，其数量上翻一倍的....

图2-1NNLM模型结构

华东师范大学硕士学位论文19产生数据稀疏问题，所以一般n的取值为2或者3。另外，这种基于词的表示方法，词之间的关系还是无法衡量。2.2.2文本分布式表示为了缓解文本的离散表示存在的向量稀疏问题以及词汇鸿沟现象，文本的分布式表示很自然地被提了出来。文本分布式表示（Distribut....

图2-2CBoW模型和Skip-Gram模型结构

华东师范大学硕士学位论文20后来在2013年来自谷歌公司的Mikolov[31]基于NNLM的思路，对神经网络语言模型进行简化，提出了Word2Vec模型，并开源了能够直接生产低维词向量的工具3。由于模型的简化和训练方法的优化，Word2Vec不仅能够在百万级的词典亿级数据集上高....

图2-3Skip-Gram模型原理

华东师范大学硕士学位论文21图2-3Skip-Gram模型原理目标函数：对于一个中心词其目标为最大化其周边任意单词的log概率。跳词模型（skip-gram）实际上是计算输入词的输入向量与目标词的输出向量之间的余弦相似度，然后再经过Softmax进行概率归一化。由于Softmax....

本文编号：3938756

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/tushudanganlunwen/3938756.html

上一篇：内蒙古中部欠发达地区农村信息服务研究
下一篇：基于微服务架构与知识图谱技术构建无人机知识库系统