基于区间半监督LDA的协同过滤推荐算法

发布时间:2024-02-22 15:16
  协同过滤推荐算法是最常用的推荐算法之一,其利用大量相关数据对用户行为相似性进行分析并为用户提供个性化推荐。在大数据时代,大量的数据呈现在人们面前,而个性化推荐的实现需要挖掘数据中的隐含信息。LDA主题模型通常用于获取文档的主题分布信息,因此,许多学者尝试将LDA主题模型应用于协同过滤推荐算法之中,并且不断地进行探索优化。传统的LDA主题模型是无监督主题模型,在实际的文本挖掘应用中,整个数据集经常需要处理大量的主题,而用户实际上只对其中小部分主题感兴趣。在这种情况下,直接应用LDA模型存在明显的缺点。即LDA模型在处理大量主题的过程中,往往会生成很多的局部极大值;这使得模型可能会给出许多“垃圾”主题,最终生成不稳定的结果。但是,在多数情况下数据集中相关主题存在的数量太少,所以需要使用大量的主题以无监督的方式来捕获它们。本文在LDA主题模型的基础上,固定相关主题关键词对应的主题区间,提出了区间半监督LDA主题模型。区间半监督LDA主题模型能有效规避在传统LDA主题模型构建过程中生成“垃圾”主题的风险,提高了模型主题分布计算的准确率。已知协同过滤推荐算法可以利用LDA主题模型计算文档的主题分...

【文章页数】:42 页

【学位级别】:硕士

【部分图文】:

图3-1概率模型:(a)LDA;(b)半监督LDA;(c)区间半监督LDA

图3-1概率模型:(a)LDA;(b)半监督LDA;(c)区间半监督LDA

分系统地介绍了吉布斯采样地计算过程),因为它容易推广到以下考虑的区间半监督LDA。在简单变化之后,吉布斯采样减少到折叠吉布斯采样:pz=tz,j,α,β∝qz,t,z,j,α,β=,()∑(,())∈,()∑(,)∈(3-1)其中z是一定分....


图5-1用户准确率对比

图5-1用户准确率对比

表5-5基于区间半监督LDA用户推荐准确率用户名称推荐数1020304050用户10.310.350.230.320.38用户20.320.370.350.400.39用户30.380.420.370.400.44用户40.....


图5-2用户准确率对比

图5-2用户准确率对比

可以发现这类用户对我们预定义的娱乐新闻并不感兴趣。回顾区间半监督LDA主题的建模过程可以发现,当词并不包含在预定义关键词集中时,我们仍使用传统LDA主题模型的公式进行计算。因此,我们可以得出结论,当用户对预定义关键词集所属领域的新闻文档不敢兴趣时,使用区间半监督LDA....


图1由图5-1可以看出,对于第一类用户来说,使用传统的LDA主题模型或是使用区间半监督LDA主题模型进行建模测评结果并没有发生改变

图1由图5-1可以看出,对于第一类用户来说,使用传统的LDA主题模型或是使用区间半监督LDA主题模型进行建模测评结果并没有发生改变

表5-5基于区间半监督LDA用户推荐准确率用户名称推荐数1020304050用户10.310.350.230.320.38用户20.320.370.350.400.39用户30.380.420.370.400.44用户40.....



本文编号:3906868

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3906868.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户4827c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]