当 user_item_matrix 过于稀疏时,应先过滤交互数<4的用户/物品、用 csr_matrix 存储、归一化后用 sklearn 的 cosine_similarity 计算;对 top 20% 活跃用户用 NearestNeighbors 查找 Top-K 相似邻居,避免全量转 dense。

协同过滤里 user_item_matrix 稀疏到没法算相似度怎么办
用户行为数据天然稀疏,电影评分矩阵常是 99% 以上为空,直接用 cosine_similarity 或 pearsonr 会得到大量 nan 或 0 相似度,导致推荐结果全靠随机。
- 先过滤掉交互数 df.groupby('user_id').size() > 4,再重建矩阵,能砍掉 60%+ 的无效行/列
- 用
scipy.sparse.csr_matrix存矩阵,别用pandas.DataFrame直接算相似度,内存和速度差一个数量级 -
sklearn.metrics.pairwise.cosine_similarity对稀疏矩阵支持良好,但传入前必须确保每行/列已归一化(减均值 or z-score),否则冷门用户之间相似度虚高 - 别用全量用户算 user-user 相似度;按活跃度分桶,只对 top 20% 用户计算,其余用 fallback 策略(如热门物品)
Python 里怎么高效实现基于用户的 Top-K 相似邻居查找
不是所有相似度都要存,也不是每次推荐都重算;重点是快、省内存、可复用。
- 用
sklearn.neighbors.NearestNeighbors(algorithm='brute', metric='cosine'),比手写循环快 10 倍以上;fit()传入用户向量矩阵(每行一个用户),kneighbors()返回索引+距离 - 注意:输入向量必须是 dense array(
.toarray()或.A),但只对活跃用户子集做,别把整个稀疏矩阵转 dense - 相似度阈值比 K 更重要:
neigh_dist 比固定 <code>n_neighbors=10更鲁棒;低于阈值的邻居直接丢弃,避免噪声污染加权 - 缓存邻居结果到
joblib.dump,文件名带矩阵哈希(hashlib.md5(matrix.data.tobytes()).hexdigest()[:8]),下次加载快于重算
预测评分时 predict_rating(user, item) 总是偏高或全为 0
公式本身简单,但实际落地时几个数值细节直接决定结果是否可用。
- 必须对每个用户中心化:用该用户已有评分的均值
user_mean,而不是全局均值;否则新用户或低频用户预测失真严重 - 加权逻辑是
sum(sim * (rating - user_mean)) / sum(abs(sim)),不是sum(sim * rating) / sum(sim);后者没去中心化,会系统性抬高预测值 - 如果邻居中没人评过该
item,返回user_mean而非 0 —— 0 是缺失值,不是真实预测 - 别在预测阶段再调
np.nanmean;提前用np.where屏蔽无效项,否则nan会污染整个加权和
MovieLens 数据加载后 train_test_split 导致冷启动用户消失
按时间或随机切分训练/测试集时,容易把只在测试期有行为的用户完全剔出训练集,导致模型根本没见过这些人。
立即学习“Python免费学习笔记(深入)”;
- 用
sklearn.model_selection.GroupShuffleSplit,groupby='user_id',保证每个用户在 train/test 中都出现至少一次 - 更稳妥的做法是:先按用户划分 train_user_ids / test_user_ids(比如 8:2),再按此筛选原始 DataFrame,而非直接用
train_test_split(df) - 测试时只评估那些在训练集中至少有 5 条记录的用户——
test_df[test_df.user_id.isin(train_user_set)],否则指标无意义 - 路径上别硬编码
'ml-100k/u.data',用pathlib.Path(__file__).parent / 'data' / 'u.data',避免相对路径错位
协同过滤真正难的不是公式,而是怎么让稀疏、偏态、带噪声的真实行为数据,在有限内存和时间内跑出稳定预测——每一步归一化、过滤、缓存、分组,都是在给数学模型补现实世界的缺口。










