基于特征加权与密度聚类的景区信息挖掘系统研究与实现

发布时间：2024-01-25 08:07

　　随着互联网技术的发展和移动设备的普及,基于互联网的景点、酒店等个性化信息服务日益增多,这些信息数据的重要性也日趋凸显。面对日渐积累的庞大的信息数据,如何从这些数据资源中发现出更深层次的联系和规律而非表面的关系成为了国内外学者研究的热点。作为数据挖掘领域中的重要方法,空间密度聚类算法与特征加权算法被广泛地应用于数据分析与处理中。论文通过对景区兴趣点信息及景区文本数据进行分析,采用空间密度聚类算法DBSCAN和特征加权算法TFIDF处理数据集,设计并实现了支持热点区域发现和特色关键词提取功能的景区信息挖掘系统。论文的主要研究工作如下:(1)针对景区兴趣点与景区文本数据源进行了数据预处理与数据存储。去除景区兴趣点数据源中存在的异常数据,并补全其中的缺失数据;将景区文本数据源进行分词处理并去除其中存在的空文本数据与无意义的停用词。最后根据数据属性类别分别存储入库。(2)提出了一种改进型空间密度聚类算法KM-DBSCAN。由于传统DBSCAN最终聚类效果极度依赖于其两个输入参数的选择,且输入参数的全局性还会导致算法对于非均匀密度分布数据集的聚类效果不良。针对上述弊端,提出了改进的自适应参数空间密...

【文章页数】：74 页

【学位级别】：硕士

图2-1Spring框架结构图