Python 基于协同过滤的推荐

485 查看

协同过滤

在用户 —— 物品（user – item）的数据关系下很容易收集到一些偏好信息（preference），比如评分。利用这些分散的偏好信息，基于其背后可能存在的关联性，来为用户推荐物品的方法，便是协同过滤，或称协作型过滤（collaborative filtering）。这种过滤算法的有效性基础在于：

用户的偏好具有相似性，即用户是可分类的。这种分类的特征越明显，推荐的准确率就越高
物品之间是存在关系的，即偏好某一物品的任何人，都很可能也同时偏好另一件物品

不同环境下这两种理论的有效性也不同，应用时需做相应调整。如豆瓣上的文艺作品，用户对其的偏好程度与用户自身的品位关联性较强；而对于电子商务网站来说，商品之间的内在联系对用户的购买行为影响更为显著。当用在推荐上，这两种方向也被称为基于用户的和基于物品的。本文内容为基于用户的。

影评推荐实例

本文主要内容为基于用户偏好的相似性进行物品推荐，使用的数据集为 GroupLens Research 采集的一组从 20 世纪 90 年代末到 21 世纪初由 MovieLens 用户提供的电影评分数据。数据中包含了约 6000 名用户对约 4000 部电影的 100万条评分，五分制。数据包可以从网上下载到，里面包含了三个数据表——users、movies、ratings。因为本文的主题是基于用户偏好的，所以只使用 ratings 这一个文件。另两个文件里分别包含用户和电影的元信息。本文使用的数据分析包为 pandas，环境为 IPython，因此其实还默认携带了 Numpy 和 matplotlib。下面代码中的提示符看起来不是 IPython 环境是因为 Idle 的格式发在博客上更好看一些。

数据规整

首先将评分数据从 ratings.dat 中读出到一个 DataFrame 里：

>>> import pandas as pd

>>> from pandas import Series,DataFrame

>>> rnames = ['user_id','movie_id','rating','timestamp']

>>> ratings = pd.read_table(r'ratings.dat',sep='::',header=None,names=rnames)

>>> ratings[:3]

user_id movie_id rating timestamp

0 1 1193 5 978300760

1 1 661 3 978302109

2 1 914 3 978301968

[3 rows x 4 columns]

ratings 表中对我们有用的仅是 user_id、movie_id 和 rating 这三列，因此我们将这三列取出，放到一个以 user 为行，movie 为列，rating 为值的表 data 里面。（其实将 user 与 movie 的行列关系对调是更加科学的方法，但因为重跑一遍太麻烦了，这里就没改。）

>>> data = ratings.pivot(index='user_id',columns='movie_id',values='rating')

>>> data[:5]

movie_id 1 2 3 4 5 6

user_id

1 5 NaN NaN NaN NaN NaN ...

2 NaN NaN NaN NaN NaN NaN ...

3 NaN NaN NaN NaN NaN NaN ...

4 NaN NaN NaN NaN NaN NaN ...

5 NaN NaN NaN NaN NaN 2 ...

可以看到这个表相当得稀疏，填充率大约只有 5%，接下来要实现推荐的第一步是计算 user 之间的相关系数，DataFrame 对象有一个很亲切的 .corr(method='pearson', min_periods=1) 方法，可以对所有列互相计算相关系数。method 默认为皮尔逊相关系数，这个 ok，我们就用这个。问题仅在于那个 min_periods 参数，这个参数的作用是设定计算相关系数时的最小样本量，低于此值的一对列将不进行运算。这个值的取舍关系到相关系数计算的准确性，因此有必要先来确定一下这个参数。

1	相关系数是用于评价两个变量间线性关系的一个值，取值范围为 [-1, 1]，-1代表负相关，0 代表不相关，1 代表正相关。其中 0~0.1 一般被认为是弱相关，0.1~0.4 为相关，0.4~1 为强相关。

min_periods 参数测定

测定这样一个参数的基本方法为统计在 min_periods 取不同值时，相关系数的标准差大小，越小越好；但同时又要考虑到，我们的样本空间十分稀疏，min_periods 定得太高会导致出来的结果集太小，所以只能选定一个折中的值。这里我们测定评分系统标准差的方法为：在 data 中挑选一对重叠评分最多的用户，用他们之间的相关系数的标准差去对整体标准差做点估计。在此前提下对这一对用户在不同样本量下的相关系数进行统计，观察其标准差变化。首先，要找出重叠评分最多的一对用户。我们新建一个以 user 为行列的方阵 foo，然后挨个填充不同用户间重叠评分的个数：

>>> foo = DataFrame(np.empty((len(data.index),len(data.index)),dtype=int),index=data.index,columns=data.index)

>>> for i in foo.index:

for j in foo.columns:

foo.ix[i,j] = data.ix[i][data.ix[j].notnull()].dropna().count()

这段代码特别费时间，因为最后一行语句要执行 4000*4000 = 1600万遍；（其中有一半是重复运算，因为 foo 这个方阵是对称的）还有一个原因是 Python 的 GIL，使得其只能使用一个 CPU 线程。我在它执行了一个小时后，忍不住去测试了一下总时间，发现要三个多小时后就果断 Ctrl + C 了，在算了一小半的 foo 中，我找到的最大值所对应的行列分别为 424 和 4169，这两位用户之间的重叠评分数为 998：

>>> for i in foo.index:

foo.ix[i,i]=0#先把对角线的值设为 0

这种过滤算法的有效性基础在于：

用户的偏好具有相似性，即用户是可分类的。这种分类的特征越明显，推荐的准确率就越高
物品之间是存在关系的，即偏好某一物品的任何人，都很可能也同时偏好另一件物品

影评推荐实例

数据规整

首先将评分数据从 ratings.dat 中读出到一个 DataFrame 里：

>>> import pandas as pd

>>> from pandas import Series,DataFrame

>>> rnames = ['user_id','movie_id','rating','timestamp']

>>> ratings = pd.read_table(r'ratings.dat',sep='::',header=None,names=rnames)

>>> ratings[:3]

user_id movie_id rating timestamp

0 1 1193 5 978300760

1 1 661 3 978302109

2 1 914 3 978301968

[3 rows x 4 columns]

>>> data = ratings.pivot(index='user_id',columns='movie_id',values='rating')

>>> data[:5]

movie_id 1 2 3 4 5 6

user_id

1 5 NaN NaN NaN NaN NaN ...

2 NaN NaN NaN NaN NaN NaN ...

3 NaN NaN NaN NaN NaN NaN ...

4 NaN NaN NaN NaN NaN NaN ...

5 NaN NaN NaN NaN NaN 2 ...

1	相关系数是用于评价两个变量间线性关系的一个值，取值范围为 [-1, 1]，-1代表负相关，0 代表不相关，1 代表正相关。其中 0~0.1 一般被认为是弱相关，0.1~0.4 为相关，0.4~1 为强相关。

min_periods 参数测定

>>> foo = DataFrame(np.empty((len(data.index),len(data.index)),dtype=int),index=data.index,columns=data.index)

>>> for i in foo.index:

for j in foo.columns:

foo.ix[i,j] = data.ix[i][data.ix[j].notnull()].dropna().count()