Matrix factorization for collaborative filtering - new users and items?
我一直在阅读有关使用矩阵分解进行协同过滤的文章,但我似乎找不到处理向系统添加新用户或项目,或让用户评价新项目的示例。在这些情况下,需要重新计算项目-用户矩阵和分解,对吗?这如何在大量用户和物品的情况下表现良好?有办法解决吗?
谢谢
- 一些可能对您的搜索有帮助的附加术语是"在线协同过滤"和随机梯度下降。我没有使用以下内容,它是 java,但您可能想查看 github.com/MrChrisJohnson/CollabStream 作为可能满足您需求的项目示例。
-
请参阅此处以获取可能的解决方案:stackoverflow.com/questions/41537470/...
您的问题分为两部分:(A)如何处理新用户和新项目,以及(B)如何处理新交互(例如评分、点击等)。
(A) 处理新用户和新项目基本上有两种不同的策略(无论我们使用矩阵分解还是其他方式):
从用户(人口统计、调查)或项目(价格、流派、文本描述、类别)属性估计用户/项目特征
主动学习:向与系统交互的所有用户展示新项目,或向系统的新用户展示某些项目,以平衡个人用户体验和系统获得的信息。
学术文献中有很多关于这两个问题的论文。
(B) 这确实没有问题——矩阵分解模型的增量更新不会产生高计算成本。参见例如这篇论文:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.165.8010
- 如果您使用诸如增量 svd 之类的分解算法,因此"完成"用户 x 项目矩阵和新客户出现在以下场景 1)他们有一些评级或 2)他们没有评级你会如何"得分""他们,无需重新运行整个 svd?在场景 1 下,您是否可以回退到在"已完成"矩阵上执行 SVD(不是增量,而是标准 svd),然后使用相似性度量来查看他们最接近的用户并使用已完成矩阵中的条目来提出建议?
-
如果您不介意,还有一个问题,因为您似乎是该领域的专家:增量 SVD (Simon Funk) 可以用于二进制数据(客户是否购买)还是需要使用其他东西?谢谢!