当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于潜在语义的K-means++算法改进及搜索应用的研究与实现

发布时间:2024-02-03 00:50
  随着互联网与信息技术的高速发展,网络上的信息量也在快速增长。面对日益增长的信息量,如何在大量信息中快速准确地提取用户搜索的关键信息与相关信息,提高搜索效率与搜索精度,成为近年来国内外学者研究的热点。然而传统的搜索系统一般为基于关键字进行内容匹配,相对较难根据用户的搜索需求进行相关的潜在语义搜索。此外,K-means算法及其衍生算法K-means++算法由于其算法的实现相对简单、收敛速度快等优点,常用来对大规模数据进行聚类分析。然而由于传统的K-means算法与其衍生算法K-means++由于初始聚类中心选择的随机性与聚类个数K值选取的问题,可能会导致聚类结果的不稳定。因此,本论文提出了基于潜在语义分析的K-means++算法的改进,并将其应用于搜索系统中。为此,本论文主要做了以下几个方面的研究:首先,本论文进行潜在语义模型的研究与构建。本论文通过对潜在语义分析技术的基本原理进行研究,使用文本预处理、文本分词、同义词合并、构建词-文档矩阵并进行矩阵分解与降维等方法,最后计算文档之间的语义相似度,从而构建潜在语义模型。从语义层面理解与处理用户的搜索请求,并构建数据之间的语义联系。其次,本论...

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

图4.4噪音点去除前的数据分布图

图4.4噪音点去除前的数据分布图

南京邮电大学专业学位硕士研究生学位论文第四章基于潜在语义分析改进的K-means++算法c3…cj}与聚类数目K,根据本论文提出的改进的K-means++算法,检测出聚类异常值与噪点,并将其排除,这里选择其中三个数据集进行仿真图演示,因为其数据集中的数据是二数据,方便展....


图4.5噪音点去除后的数据分布图

图4.5噪音点去除后的数据分布图

南京邮电大学专业学位硕士研究生学位论文第四章基于潜在语义分析改进的K-means++算法c3…cj}与聚类数目K,根据本论文提出的改进的K-means++算法,检测出聚类异常值与噪点,并将其排除,这里选择其中三个数据集进行仿真图演示,因为其数据集中的数据是二数据,方便展....


图4.6K-means++算法数据的初始化与聚类中心的初始化图

图4.6K-means++算法数据的初始化与聚类中心的初始化图

点去除前的数据分布图图4.5噪音点去除后的数据分布图点去除后,我们对改进的K-means++的聚类中心的选取与聚类效果eans++算法数据的初始化与聚类中心的初始化如图4.6所示,其聚类中心的选取与聚类过程如图4.7所示。过对样本数据集Pima与NYSK进....


图4.7基于密度改进的K-means++算法的聚类中心的选取与聚类过程图

图4.7基于密度改进的K-means++算法的聚类中心的选取与聚类过程图

图4.7基于密度改进的K-means++算法的聚类中心的选取与聚类过程图4.7中,我们可以看到改进的K-means++算法的聚类过程,在初始聚类中心选定不断的计算与迭代,改变聚类中心的位置,从而使得聚类中心相聚尽可能远,同类簇的中心点的位置,从而使聚类的效果更好。接下....



本文编号:3893425

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3893425.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户a62fd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]