干货基于用户的协同过滤推荐算法原理和实现余弦

在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单。该算法1992年提出并用于邮件过滤系统,两年后1994年被GroupLens用于新闻过滤。一直到2000年,该算法都是推荐系统领域最著名的算法。

基本思想

俗话说“物以类聚、人以群分”,拿看电影这个例子来说,如果你喜欢《蝙蝠侠》、《碟中谍》、《星际穿越》、《源代码》等电影,另外有个人也都喜欢这些电影,而且他还喜欢《钢铁侠》,则很有可能你也喜欢《钢铁侠》这部电影。

所以说,当一个用户A需要个性化推荐时,可以先找到和他兴趣相似的用户群体G,然后把G喜欢的、并且A没有听说过的物品推荐给A,这就是基于用户的系统过滤算法。

原理

根据上述基本原理,我们可以将基于用户的协同过滤推荐算法拆分为两个步骤:

1.找到与目标用户兴趣相似的用户集合2.找到这个集合中用户喜欢的、并且目标用户没有听说过的物品推荐给目标用户1.发现兴趣相似的用户

通常用Jaccard公式或者余弦相似度计算两个用户之间的相似度。设N(u)为用户u喜欢的物品集合,N(v)为用户v喜欢的物品集合,那么u和v的相似度是多少呢:

Jaccard公式:

余弦相似度:

假设目前共有4个用户:A、B、C、D;共有5个物品:a、b、c、d、e。用户与物品的关系(用户喜欢物品)如下图所示:

如何一下子计算所有用户之间的相似度呢?为计算方便,通常首先需要建立“物品—用户”的倒排表,如下图所示:

然后对于每个物品,喜欢他的用户,两两之间相同物品加1。例如喜欢物品a的用户有A和B,那么在矩阵中他们两两加1。如下图所示:

计算用户两两之间的相似度,上面的矩阵仅仅代表的是公式的分子部分。以余弦相似度为例,对上图进行进一步计算:

到此,计算用户相似度就大功告成,可以很直观的找到与目标用户兴趣较相似的用户。

2.推荐物品

首先需要从矩阵中找出与目标用户u最相似的K个用户,用集合S(u,K)表示,将S中用户喜欢的物品全部提取出来,并去除u已经喜欢的物品。对于每个候选物品i,用户u对它感兴趣的程度用如下公式计算:

其中rvi表示用户v对i的喜欢程度,在本例中都是为1,在一些需要用户给予评分的推荐系统中,则要代入用户评分。

举个例子,假设我们要给A推荐物品,选取K=3个相似用户,相似用户则是:B、C、D,那么他们喜欢过并且A没有喜欢过的物品有:c、e,那么分别计算p(A,c)和p(A,e):

看样子用户A对c和e的喜欢程度可能是一样的,在真实的推荐系统中,只要按得分排序,取前几个物品就可以了。

园友推荐

1.计算10名与我兴趣最相似的园友

2.计算对推荐园友的兴趣度

这10名相似用户一共推荐了25名园友,计算得到兴趣度并排序:

排序昵称兴趣度1wolfy0.3730019232961262Artech0.3405026123034993CatChen0.3405026123034994WXWinter(冬)0.3405026123034995DanielWise0.3405026123034996一路前行0.315244162495647LiamWang0.315244162495648usharei0.315244162495649CoderZh0.3152441624956410博客园团队0.3152441624956411深蓝色右手0.3152441624956412Kinglee0.3152441624956413Gnie0.3152441624956414riccc0.3152441624956415Braincol0.3152441624956416滴答的雨0.3152441624956417DennisGao0.3152441624956418刘冬.NET0.3152441624956419李永京0.3152441624956420浪端之渡鸟0.3152441624956421李涛0.3152441624956422阿不0.3152441624956423JK_Rush0.3152441624956424xiaotie0.3152441624956425Leepy0.312771621085612

只需要按需要取相似度排名前10名就可以了,不过看起来整个列表的推荐质量都还不错!

THE END
1.推荐算法协同过滤协同过滤是迄今为止最成功的推荐系统技术,被应用在很多成功的推荐系统中。电子商务推荐系统可根据其他用户的评论信息,采用协同过滤技术给目标用户推荐商品。 协同过滤算法主要分为基于启发式和基于模型式两种。 其中,基于启发式的协同过滤算法,又可以分为基于用户的协同过滤算法(User-Based)和基于项目的协同过滤算法(Item...https://www.jianshu.com/p/5463ab162a58
2.基于流形近邻的协同过滤算法AET为了比较基于欧氏距离的协同过滤算法和基于最小最大距离的协同过滤算法,此处变化邻居数,加权方案取01VD,记使用欧氏距离的协同过滤方案为ECF,得到的实验结果如图2所示。 从图2可以看出,使用流形近邻的协同过滤算法优于使用欧氏距离的协同过滤算法。 3.3不同流形邻居数对实验结果的影响 ...http://www.chinaaet.com/article/3000016485
1.算法篇协同过滤协同过滤算法那么,在一个在线个性化推荐系统中,当一个用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A。这种方法称为基于用户的协同过滤算法。 算法核心:当一个用户A需要个性化推荐时,可以先找到他有相似兴趣的其他用户,然后把那些用户喜欢的、而用户A...https://blog.csdn.net/m0_37739193/article/details/119388606
2.协同过滤算法概述与python实现协同过滤算法基于内容(usr协同过滤(Collaborative Filtering)作为推荐算法中最经典的类型,包括在线的协同和离线的过滤两部分。所谓在线协同,就是通过在线数据找到用户可能喜欢的物品,而离线过滤,则是过滤掉一些不值得推荐的数据,比比如推荐值评分低的数据,或者虽然推荐值高但是用户已经购买的数据。 协同过滤的模型一般为m个物品,m个用户的数据,只...https://cloud.tencent.com/developer/article/1102304
3.利用数据分析量化协同过滤算法的两大常见难题但是对于一些老大难问题怎样分析数据,业内目前还没有一些较为全面和体系化的方法论。2018年在成都举行的 ICCCBDA 2018 会议刊登了一篇题为 Quantitative Analysis of Matthew Effect and Sparsity Problem in Recommender Systems 的论文,尝试着精准量化协同过滤算法中的两个常见难题:马太效应和稀疏性问题。https://www.51cto.com/article/595775.html
4.用Python实现协同过滤的教程python协同过滤 在 用户 —— 物品(user - item)的数据关系下很容易收集到一些偏好信息(preference),比如评分。利用这些分散的偏好信息,基于其背后可能存在的关联性,来为用户推荐物品的方法,便是协同过滤,或称协作型过滤(collaborative filtering)。 这种过滤算法的有效性基础在于: 用户的偏好具有相似性,即用户是可分类的...https://www.jb51.net/article/63730.htm