基于协同过滤推荐系统的数据稀疏性问题研究
A. 推荐系统的数据稀疏性怎么解决
可以用spark streaming实时处理,直接读取你的数据(或端口读取,或保存到本地读取本地数据处理)
B. 协同过滤,基于内容推荐有什么区别
举个简单的小例子,我们已知道
用户喜欢的电影是A,B,C
用户u2喜欢的电影是A, C, E, F
用户u3喜欢的电影是B,D
我们需要解决的问题是:决定对u1是不是应该推荐F这部电影
基于内容的做法:要分析F的特征和u1所喜欢的A、B、C的特征,需要知道的信息是A(战争片),B(战争片),C(剧情片),如果F(战争片),那么F很大程度上可以推荐给u1,这是基于内容的做法,你需要对item进行特征建立和建模。
协同过滤的办法:那么你完全可以忽略item的建模,因为这种办法的决策是依赖user和item之间的关系,也就是这里的用户和电影之间的关系。我们不再需要知道ABCF哪些是战争片,哪些是剧情片,我们只需要知道用户u1和u2按照item向量表示,他们的相似度比较高,那么我们可以把u2所喜欢的F这部影片推荐给u1。
根据数据源的不同推荐引擎可以分为三类
1、基于人口的统计学推荐(Demographic-based Recommendation)
2、基于内容的推荐(Content-based Recommendation)
3、基于协同过滤的推荐(Collaborative Filtering-based Recommendation)
基于内容的推荐:
根据物品或内容的元数据,发现物品或内容的相关性,然后基于用户以前的喜好记录推荐给用户相似的物品
基于内容推荐的一个典型的例子,电影推荐系统,首先我们需要对电影的元数据有一个建模,这里只简单的描述了一下电影的类型;然后通过电影的元数据发现电影间的相似度,因为类型都是“爱情,浪漫”电影 A 和 C 被认为是相似的电影(当然,只根据类型是不够的,要得到更好的推荐,我们还可以考虑电影的导演,演员等等);最后实现推荐,对于用户 A,他喜欢看电影 A,那么系统就可以给他推荐类似的电影 C。
C. 如何解决协同过滤的数据稀疏问题
以对原始的评分数据集进行变换,用评分值相对于平均评分值的偏差取代原始值,如基于物品过滤的数据预处理Amazon.com采用物品间
D. 基于协同过滤的推荐系统的数据库在什么环境平台构建
大体试用了一下三个系统,得出了一个比较粗浅的结论: 、phpcms: phpcms自2007版本开源以后才开始引起广泛关注,但这次也是头一次研究。用了几天,有了一点初步的印象。(以下以2007版为例,2008版尚未正式推出) 粗看起来,phpcms 2007是三者中最为完善的,各项功能考虑的很细致,导致进了新手进了后台先要晕半天才行。各项功能,比如UNIX系统的权限、模版修改、广告、商城、信息、单网页。。。。都做的相当的完备了。 发表文章的关键字、作者、来源、自动远程图片保存等等,都做的不错。但是,phpcms发表文章的摘要,似乎是只能自动截取,不能手工设置,灵活性欠佳。 发表的文章可以通过关键字来索引相关贴,做的不错。 支持通行证方式进行论坛和其它系统的整合,可以进行正向和反向两种方式的整合。但是文档说的不太清楚,研究了半天才成功。但是反向整合pw5.0.1登录后自动跳转不回来。 phpcms 2007的后台安排的太琐碎,看的头晕。发一篇文章也要晕半个钟头,而且首页的更新莫不清规律,幻灯片老半天不更新。 phcms尽管功能很强大,但是却缺少一样重要的东西:可视化的模版工具,这也是php168和dedecms共同的缺点。在这方面,他们甚至不如刚刚起步的DiyPage好,DiyPage只是一个刚刚具备了雏形的CMS系统,却拥有一个很方便的后台可视化界面设计工具,即使是菜鸟也可以轻松设计界面(虽然灵活性没那么强大,但是足够你用了)。 phpcms 2007整体以频道为依据进行组织,即使你不想用频道,哪也得用,这个已经由不了你了 。所以如果仅仅是一个比较简单的网站,也用上一个频道,看起来够别扭的,这是phpcms 2007最大的缺点,不过看了phpcms 2008beta2发现,phpcms终于解除了这个垃圾限制。 发现phpcms的广告功能似乎不完善,一个广告位定义了两个广告,不能自动轮换,总是显示第一个。 phpcms虽然实现了模块化,但是不管你用不用,一大堆模块稀里呼噜就装上了,看起来很不爽,也不直观。 phpcms虽然是很早就是商业化运作的软件,然后开发效率却是不高,新版本屡屡跳票,影响了它的产品形象,让开源以来积累的人气和一些拥趸大失所望。然而最近贴上了六间房以后,资金应该是没有压力了,新版本也开始浮出水面,2008beta1已经发布了,可惜问题多多。 phpcms 2008 beta2 在 MySQL4 上还是有使用问题,不过比beta1强一些,beta1直接就安装不了,不知道正式版是否会正式放弃MySQL4。 phpcms 2008beta2看上去不错,新功能令人振奋的,界面清爽。以前一团乱麻的后台界面已经打扫干净了。phpcms 2008的标签采用了中英文混合的方式,对菜鸟来说更加容易上手,比较新颖。另外,beta2好像是实现了类似php168的可视化模版中的标签设置方式,虽然不是可视化的设计模版,总归可以自定义一些元素样式了。不过这个beta2版也还是顶多算是个预览版,BUG极多,功能不全。如果准备用phpcms的话,怕是还要大大的等几天才行。 另外,phpcms官方论坛对免费版的支持很不到位,伤了很多粉丝的心。 2、dedecms 5.1应该是dedecms正式商业化运作以后推出的第一个版本吧?以前的dedecms个体作坊式的发展,由于作者兼职时间和精力不足,导致发展缓慢,新版本频频跳票,引起广大粉丝的强烈不满,甚至导致柏拉图和dedecms用家之间的语言冲突。然而dedecms在商业化运作以后,新版本的发布周期大大缩短,产品功能不断改进,界面美化了很多,人气和用户数量大大增长了,现在看发展势头不错。 dedecms的根目录是最简单的,只有几个文件,比以上两个都强多了,其实这样不仅看起来清爽,维护起来也方便,值得表扬 dedecms的频道非常费解,看起来只有频道模型,要增加频道就要添加模版文件有点费解,仔细研究发现,这个dedecms其实和php168的方式差不多,任何栏目都可以添加子目录,绑定域名,其实就和频道是一个意思,栏目和频道可以互相转换。 dedecms的通行证只支持反向整合,就是dedecms可以用服务端的用户数据登录。其实所谓整合,一般也就是这样的。论坛用整站用户数据的情况恐怕极为少见,对论坛管理也不利。 但是dedecms的通行证整合,需要修改论坛文件,不明白为啥要这样,是因为论坛的通行证功能还不完善吗? dedecms的广告管理用起来比较麻烦,要先定义标签,然后手工在模板中插入。好像模版上没预定义好广告位置,实在是太不应该了。。。。相当于手动操作,不符合当今历史潮流啊。而且大家常用的广告自动轮换功能,也没有实现。 试用发现,dedecms有时还有一些小毛病,比如远程附件功能,有时发现无法自动转存到本地。另外,在模块数量上,dedecms也无法和php168和phpcms相比,只有文章、下载、图片、Flash等基本的功能,不知道dedecms 2007发布以后能否有所改观 dedecms的相关文章、热点文章等功能,用了静态生成的方式直接写入到了HTML文件中,这样在生成HTML后,无法自动更新,需要经常手工重新生成全部HTML才能更新相关文档和热点文档。但是大量的重复生成所有HTML文件效率太低下了,这方面dedecms不如php168最新添加的相关文章功能,是用JS方式实现的,不需要更新HTML就能自动索取最新的相关文章。但是使用JS方式也存在服务器效率的问题。 dedecms的首页、列表页、还有文章页都使用了单独的模板,没有使用header和footer模板,这样的好处是可以产生各种风格的页面(允许首页、列表页、内容页使用不同的风格),但是缺点是修改添加头部和底部广告、导航条的时候,相当费劲,要一个一个模板的修改。而且dedecms的版权声明字段设置太小,只有250字节,写不进去多少内容,顶多能添加个计数器就不错了。 dedecms起步就用了类似XML标签方式,而且官方还提供了Dreamweaver的插件来识别标签,应该说在国内是比较独到的。但是这种方式也需要新手一定的时间才能适应。同时,dedecms一直缺乏比较完善的文档,也进一步加大了菜鸟上手的难度。 dedecms最大的问题就是没有提供类似Diypage的可视化设计方式,因为标签比较难于上手,对新手来说做模板是很头疼的问题。 dedecms 5.1比4.0功能有了很多进步,增加DIGG功能,还有类似分类信息之类的功能都实现了。不过也有退步,比如关键词、相关帖功能都严重退步了,发帖也很不方便,而且dedecms在商业版本和免费版本之间做功能和代码区分,也自然会在免费版本上有所缩水。 dedecms商业化发展以后,目前出现的问题是免费版的技术支持做的不太到位,比phpcms强不了多少
E. 协同过滤中的可扩展性问题是什么
协同过滤算法能够容易地为几千名用户提供较好的推荐,但是对于电子商务网站,往往需要给成百上千万的用户提供推荐,这就一方面需要提高响应时间的要求,能够为用户实时地进行推荐;另一方面还应考虑到存储空间的要求,尽量减少推荐系统运行的负担。
1.3 可扩展性问题
在协同过滤推荐算法中,全局数值算法能及时利用最新的信息为用户产生相对准确的用户兴趣度预测或进行推荐,但是面对日益增多的用户,数据量的急剧增加,算法的扩展性问题(即适应系统规模不断扩大的问题)成为制约推荐系统实施的重要因素。虽然与基于模型的算法相比,全局数值算法节约了为建立模型而花费的训练时间,但是用于识别“最近邻居”算法的计算量随着用户和项的增加而大大增加,对于上百万的数目,通常的算法会遇到严重的扩展性瓶颈问题。该问题解决不好,直接影响着基于协同过滤技术的推荐系统实时向用户提供推荐问题的解决,而推荐系统的实时性越好,精确度越高,该系统才会被用户所接受。
基于模型的算法虽然可以在一定程度上解决算法的可扩展性问题,但是该类算法往往比较适于用户的兴趣爱好比较稳定的情况,因为它要考虑用户模型的学习过程以及模型的更新过程,对于最新信息的利用比全局数值算法要差些。
分析以上协同过滤在推荐系统实现中面临的两个问题,它们的共同点是均考虑到了最近邻居的形成问题(包括用户信息获得的充分性、计算耗费等)。但是应该看到协同过滤在推荐系统的实现中,要获得最近邻居用户,必须通过一定的计算获得用户之间的相似度,然后确定最佳的邻居个数,形成邻居用户集。而在这一过程中,如果对全部数据集进行相似性计算,虽然直接,但是运算量和时间花费都极大,无法适应真实的商务系统。如果通过对训练集数据(整个数据集的某一子集)进行实验获得,虽然不必对整个数据集进行计算,但是必须通过将多次实验结果统计出来才可能得到,这无疑也增加了推荐结果获得的代价和误差。并且如果考虑到数据集的动态变化,这一形成最近邻居用户集技术的实际应用价值越来越小。因此,考虑使用更为有效的最近邻居用户形成办法,对于协同过滤的应用非常必要。
F. 矩阵分解在协同过滤推荐算法中的应用
矩阵分解在协同过滤推荐算法中的应用
推荐系统是当下越来越热的一个研究问题,无论在学术界还是在工业界都有很多优秀的人才参与其中。近几年举办的推荐系统比赛更是一次又一次地把推荐系统的研究推向了高潮,比如几年前的Neflix百万大奖赛,KDD CUP 2011的音乐推荐比赛,去年的网络电影推荐竞赛,还有最近的阿里巴巴大数据竞赛。这些比赛对推荐系统的发展都起到了很大的推动作用,使我们有机会接触到真实的工业界数据。我们利用这些数据可以更好地学习掌握推荐系统,这些数据网上很多,大家可以到网上下载。
推荐系统在工业领域中取得了巨大的成功,尤其是在电子商务中。很多电子商务网站利用推荐系统来提高销售收入,推荐系统为Amazon网站每年带来30%的销售收入。推荐系统在不同网站上应用的方式不同,这个不是本文的重点,如果感兴趣可以阅读《推荐系统实践》(人民邮电出版社,项亮)第一章内容。下面进入主题。
为了方便介绍,假设推荐系统中有用户集合有6个用户,即U={u1,u2,u3,u4,u5,u6},项目(物品)集合有7个项目,即V={v1,v2,v3,v4,v5,v6,v7},用户对项目的评分结合为R,用户对项目的评分范围是[0, 5]。R具体表示如下:
推荐系统的目标就是预测出符号“?”对应位置的分值。推荐系统基于这样一个假设:用户对项目的打分越高,表明用户越喜欢。因此,预测出用户对未评分项目的评分后,根据分值大小排序,把分值高的项目推荐给用户。怎么预测这些评分呢,方法大体上可以分为基于内容的推荐、协同过滤推荐和混合推荐三类,协同过滤算法进一步划分又可分为基于基于内存的推荐(memory-based)和基于模型的推荐(model-based),本文介绍的矩阵分解算法属于基于模型的推荐。
矩阵分解算法的数学理论基础是矩阵的行列变换。在《线性代数》中,我们知道矩阵A进行行变换相当于A左乘一个矩阵,矩阵A进行列变换等价于矩阵A右乘一个矩阵,因此矩阵A可以表示为A=PEQ=PQ(E是标准阵)。
矩阵分解目标就是把用户-项目评分矩阵R分解成用户因子矩阵和项目因子矩阵乘的形式,即R=UV,这里R是n×m, n =6, m =7,U是n×k,V是k×m。直观地表示如下:
高维的用户-项目评分矩阵分解成为两个低维的用户因子矩阵和项目因子矩阵,因此矩阵分解和PCA不同,不是为了降维。用户i对项目j的评分r_ij =innerproct(u_i, v_j),更一般的情况是r_ij =f(U_i, V_j),这里为了介绍方便就是用u_i和v_j内积的形式。下面介绍评估低维矩阵乘积拟合评分矩阵的方法。
首先假设,用户对项目的真实评分和预测评分之间的差服从高斯分布,基于这一假设,可推导出目标函数如下:
最后得到矩阵分解的目标函数如下:
从最终得到得目标函数可以直观地理解,预测的分值就是尽量逼近真实的已知评分值。有了目标函数之后,下面就开始谈优化方法了,通常的优化方法分为两种:交叉最小二乘法(alternative least squares)和随机梯度下降法(stochastic gradient descent)。
首先介绍交叉最小二乘法,之所以交叉最小二乘法能够应用到这个目标函数主要是因为L对U和V都是凸函数。首先分别对用户因子向量和项目因子向量求偏导,令偏导等于0求驻点,具体解法如下:
上面就是用户因子向量和项目因子向量的更新公式,迭代更新公式即可找到可接受的局部最优解。迭代终止的条件下面会讲到。
接下来讲解随机梯度下降法,这个方法应用的最多。大致思想是让变量沿着目标函数负梯度的方向移动,直到移动到极小值点。直观的表示如下:
其实负梯度的负方向,当函数是凸函数时是函数值减小的方向走;当函数是凹函数时是往函数值增大的方向移动。而矩阵分解的目标函数L是凸函数,因此,通过梯度下降法我们能够得到目标函数L的极小值(理想情况是最小值)。
言归正传,通过上面的讲解,我们可以获取梯度下降算法的因子矩阵更新公式,具体如下:
(3)和(4)中的γ指的是步长,也即是学习速率,它是一个超参数,需要调参确定。对于梯度见(1)和(2)。
下面说下迭代终止的条件。迭代终止的条件有很多种,就目前我了解的主要有
1) 设置一个阈值,当L函数值小于阈值时就停止迭代,不常用
2) 设置一个阈值,当前后两次函数值变化绝对值小于阈值时,停止迭代
3) 设置固定迭代次数
另外还有一个问题,当用户-项目评分矩阵R非常稀疏时,就会出现过拟合(overfitting)的问题,过拟合问题的解决方法就是正则化(regularization)。正则化其实就是在目标函数中加上用户因子向量和项目因子向量的二范数,当然也可以加上一范数。至于加上一范数还是二范数要看具体情况,一范数会使很多因子为0,从而减小模型大小,而二范数则不会它只能使因子接近于0,而不能使其为0,关于这个的介绍可参考论文Regression Shrinkage and Selection via the Lasso。引入正则化项后目标函数变为:
(5)中λ_1和λ_2是指正则项的权重,这两个值可以取一样,具体取值也需要根据数据集调参得到。优化方法和前面一样,只是梯度公式需要更新一下。
矩阵分解算法目前在推荐系统中应用非常广泛,对于使用RMSE作为评价指标的系统尤为明显,因为矩阵分解的目标就是使RMSE取值最小。但矩阵分解有其弱点,就是解释性差,不能很好为推荐结果做出解释。
后面会继续介绍矩阵分解算法的扩展性问题,就是如何加入隐反馈信息,加入时间信息等。
G. 推荐系统的研究主要包括哪些方面
推 荐系统的研究主要包括以下几个方面:
(1)用户信息获取和建模。
早期的内推荐系统只需获取简单的用户容信息,随着推荐系统 发展, 推荐系统由简单的信息获取转变为和用户交互的系统, 需要考虑用户多兴趣和用户兴 趣转变的情况,将数据挖掘应用到用户信息获取中,挖掘用户的隐性需求。
(2)推荐算法研究。
要实现被顾客接受和认可的个性化推荐,设计准确、高效率的个 性化推荐算法是核心。基于内容的推荐和协同过滤是最主要的两种。为了克服各自的缺点, 可以将各种推荐方法混合使用,以提高推荐精度和覆盖率。同时,信息获取和人工智能,以 及模糊推荐等相关领域的引入扩宽了推荐算法的思路。
(3)推荐系统的评价问题。
要使推荐系统为广大用户所接受,必须对推荐系统作出客 观综合的评价。 推荐结果的准确性和可信性是非常重要的两个方面。 如何对推荐结果的准确 性进行判定, 如何把推荐结果展示给用户以及如何获取用户对推荐结果的评价都是需要深入 研究的问题。
(4) 推荐系统的应用和社会影响研究。
需要建立推荐系统在其他应用领域的应用框架, 研究如何与企业其它信息系统的集成。
H. 谁有基于用户的推荐系统或者协同过滤的算法和代码分析
个大数据的大神给个 基于用户的推荐系统或者协同过滤的算法和代码分析啊
我有部分代码但是不知道怎么在Eclipse上实现 求解答啊
1.public class AggregateAndRecommendRecer extends Recer<VarLongWritable,VectorWritable,VarLongWritable,RecommendedItemsWritable>{
...
public viod rece (VarLongWritable key,Iterable<VectorWritable>values,Context context)throws IOException,InterruptedException{
Vector recommendationVector=null;
for(VectorWritable vectorWritable:values){
recommendationVector=recommendationVector==null?
vectorWritable.get();
recommendationVector.plus(bectorWritable.get());
}
Queue<RecommendedItem> topItems=new PriorityQueue<RecommendedItem>(recommendationsPerUser+1,Collections.reverseOrder(.getInstance()));
Iterator<Vector.Element> recommendationVectorIterator=recommendationVector.iterateNonZero();
while(recommendationVectorIterator.hasNext()){
vector.Element element=recommendationVectorIterator.next();
int index=element.index();
I. 降噪自动编码推荐系统中会有数据稀疏的问题吗
编码公式为=A2&"-"&B2&"-"&C2&"-"&TEXT(G2,"yyyymmdd")&"-"&H2