当前位置:主页 > 科技论文 > 搜索引擎论文 >

查询接口集成问题的多目标优化模型及求解算法

发布时间:2020-11-20 18:13
   DeepWeb是指隐藏在Web数据库中而不能被传统搜索引擎索引到的那部分内容的集合。对于特定领域的Deep Web,不同的站点会提供不同查询能力的查询接口。集成查询接口可以达到访问同一领域所有资源的目的。集成查询接口主要有模式匹配和模式集成两部分,其中模式匹配问题已经得到了广泛研究。本文对查询接口集成问题中的模式集成问题进行了分析研究。 由于现实中的查询接口结构各异,使得在集成查询接口时无法得到满足所有需求的结构。基于满足多数需求的原则,本文在集成查询接口时采用频繁使用的查询接口结构。为了得到结构良好且语义全面的查询接口,本文针对查询接口集成问题中的模式集成问题提出了两类新的多目标优化模型,并对每个模型给出了求解算法。 在第一个模型中,用有序树表示查询接口,可以充分体现查询接口所蕴含的结构信息,并且根据查询接口的有序树给出了一类新的结构约束和顺序约束。集成的查询接口应该集成那些在查询接口频繁使用的结构,因此,查询接口集成问题可以转化成在所有查询接口中挖掘频繁结构的问题,即在所有有序树中挖掘频繁子树。最后,以极大化叶节点个数和频繁子树的频繁度为目标,建立了一个多目标优化模型,并且给出了求解该模型的频繁子树挖掘算法。用多个领域的查询接口数据进行实验,并对实验结果进行了分析和评价,实验结果表明了算法的可行性和有效性。但是当集成结构差异很大的查询接口时,利用此模型不能够得到理想的集成查询接口。 针对第一个模型的不足,本文提出了改进的模型及算法。首先,根据查询接口的结构,将查询接口的有序树转化成结构矩阵;根据该结构矩阵给出了度量两棵有序树的结构相似程度的计算方法;根据所有查询接口中的频繁结构构造了一个用于参考的理想有序树。然后,根据所有查询接口的顺序约束将所有的属性排序,基于此排序给出了衡量查询接口属性排序好坏的标准。最后,通过优化集成的有序树与理想有序树的相似度和集成有序树中的叶节点的排序,对查询接口集成问题建立了一种新的多目标优化模型。针对该模型,设计了一种合并树算法进行求解。最后,数据实验证明了改进模型的合理性和有效性,并验证了算法的稳定性。
【学位单位】:西安电子科技大学
【学位级别】:硕士
【学位年份】:2012
【中图分类】:TP393.09;TP301.6
【部分图文】:

查询接口,航空领域,网站,属性


包括文本输入框、选择列表、复选按钮等。一个 HTML 控口中的一个属性,一个查询接口通常包含多个属性。查询接口的属息,例如属性的标签,属性的 ID 等。其中属性的标签是属性对应上的标签,属性 ID 是属性在 HTML 源码中的 ID。当前对查询接口究,一般把查询接口建成一个平面模型,即将其表示为所有属性按左到右的顺序构成的集合来处理。如图 3.1 中查询接口对应的平面模,to,departure month, departure day, departure time,return month,return dadult,child,senior}。但是,查询接口中一些属性经常放在一起组成一个念称为组属性,如图 3.1 中{from, to}就经常放在一起,表示用户从里的信息(where to go?);{adult, child, senior}一起组成有关乘客人数many travelers are there?)等,这类似与文章的章节,越往上包含的内容就到下层逐级细化。此外,查询接口中属性的排列也是有序的,如离)排在到达地点(to)之前,离开日期(departure date)排在到达日期(retur为了充分刻画查询接口含有的这些结构信息,本文用有序树表示查询

航空领域,挖掘算法,子树


空领域为例说明实验过程,基于频繁子树的挖掘算法首先要给出值,采用上面 20 个查询接口做实验时,去除出现次数为 1 的属性小值为 6,所以最小阈值 设置为 0.3。从实验结果中选择出含有频繁度最高的子树作为最后的集成查询接口。实验得到的初始集 5.1(a):R 是根,M,N,E 是第二层的节点,它们与 R 的缩进相同缩进代表其孩子节点,依此类推。图 5.1(b)为将数字转化为属性中根节点和中间节点均用“*********”表示。图 5.1(b)的树并没性。因此,算法的最后还需要进一步添加不包含的属性,添加属的添加和属性的添加。例如航空领域没有包含的属性及属性组,它们的出现次数分别为 8,2,9,属性组 D 和属性 13 出现的次数被构造出来就说明了它们在源接口中顺序差异很大,所以没有被时首先添加 D,发现 D 经常排在 E 的前面,所以继续比较 D 与为 D 经常排在 N 的后面,所以将 D 插入 N 后面,依此类推将 13便可以得出最后的集成查询接口。

查询接口


不同领域集成查询接口的结构相似度值
【参考文献】

相关期刊论文 前1条

1 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期



本文编号:2891800

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2891800.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户46309***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]