当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于编辑距离的多实体可信确认算法

发布时间:2024-02-15 09:33
  随着自媒体的蓬勃发展,任何人都可以在网上随意发布和转发信息,而这些信息可能是真实的,也可能是道听途说或被故意篡改的。互联网上数据的严重冗余和弱可信问题,导致现有数据的可用性很差。Bi-LSTM-CRF(Bi-Long Short Term Memory with Conditional Random Field Layer)网络虽然能够解决数据中命名实体识别的准确率问题,但不能满足识别出的实体是可信的这一要求。文中提出一种基于编辑距离的多实体可信确认算法,并通过人物命名实体识别实例对该算法进行验证。首先通过分布式爬虫抓取同一个邮箱地址在多个搜索引擎上的Top N网页记录,然后使用经过双语语料训练后的Bi-LSTM-CRF模型抽取每个页面内的人物命名实体,最后通过实体多参数融合确定邮箱所对应的人物命名实体。实验结果表明,多实体可信确认算法能够将邮箱地址与邮箱真实主人的匹配准确率MRR(Mean Reciprocal Rank)提高到91.32%,相比只使用词频的算法其MRR提升了23.08%。实验数据充分说明,多实体可信确认算法能很好地从弱可信数据中获得强可信度的实体,降低海量数据中的低...

【文章页数】:5 页

【部分图文】:

图1MeTCa系统的整体架构

图1MeTCa系统的整体架构

多实体可信确认算法模型(Multi-EntityTrustedConfirmationAlgorithms,MeTCa)的整体框架如图1所示,主要有3个阶段:分布式弱可信数据获取阶段、命名实体识别阶段和多参数融合可信确认阶段。3.1数据获取


图2爬虫的架构图

图2爬虫的架构图

测试的邮箱地址来自国内外各大高校公开的教师的邮箱地址,共1000个。通过自动化技术将邮箱地址分别输入到百度、必应和谷歌三大搜索引擎的搜索框中,爬取相关弱可信数据。实验使用3台主机进行分布式爬取:一台主机作为控制节点,从文件中获取待爬取的邮箱地址,并将其传递给其余两台爬虫节点下的....


图3Bi-LSTM-CRF网络的结构

图3Bi-LSTM-CRF网络的结构

目标文本在进入模型识别前首先进行语种的识别,若网页内容中超过50%的字符为英文字母,则判断该网页为英文网页,否则为中文网页[15]。然后,将它们分别投入针对中文或英文的训练的Bi-LSTM-CRF模型中进行实体识别。在区分语种后,实体的识别准确度得到了明显的提升。其中,Bi-LS....


图4有效实体占总实体的堆积图

图4有效实体占总实体的堆积图

图4中,横坐标为排序前N的网页页面数,左纵坐标为TopN页面中的平均实体数(单位:个),右纵坐标为平均有效实体的占比。在Top30页时,平均有效占比达到了最大值,即89%,后面的页面抓取到的实体多为与邮箱地址相关度低的无效实体。因此,在实验中采集数据时,选择获取三大引擎的To....



本文编号:3899542

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3899542.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户94406***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]