Twitter 新闻文章或博客文章的协同过滤_Twitter_Recommendation Engine_Sparse Matrix_Collaborative Filtering

Twitter 新闻文章或博客文章的协同过滤

twitter

Twitter 新闻文章或博客文章的协同过滤,twitter,recommendation-engine,sparse-matrix,collaborative-filtering,Twitter,Recommendation Engine,Sparse Matrix,Collaborative Filtering,大家都知道协同过滤（CF）是如何用于电影、音乐和书籍推荐的。在论文中，作者展示了一个应用于约5500名用户和约17000篇科学文章的协同过滤示例。对于约200000个用户项目对，用户文章矩阵显然是高度稀疏的如果您对Twitter上共享的所有新闻文章进行协作过滤，会怎么样？矩阵将更加稀疏（比科学文章案例中的矩阵稀疏），这使得CF不太适用。当然，我们可以做一些内容感知分析（考虑到文章的文本），但这不是我的重点。或者我们可以潜在地限制我们的时间窗口（例如，关注最后一天或一周内共享的所有新闻文章），以

大家都知道协同过滤（CF）是如何用于电影、音乐和书籍推荐的。在论文中，作者展示了一个应用于约5500名用户和约17000篇科学文章的协同过滤示例。对于约200000个用户项目对，用户文章矩阵显然是高度稀疏的

如果您对Twitter上共享的所有新闻文章进行协作过滤，会怎么样？矩阵将更加稀疏（比科学文章案例中的矩阵稀疏），这使得CF不太适用。当然，我们可以做一些内容感知分析（考虑到文章的文本），但这不是我的重点。或者我们可以潜在地限制我们的时间窗口（例如，关注最后一天或一周内共享的所有新闻文章），以使用户文章矩阵更加密集。还有什么其他的想法可以解决矩阵非常稀疏的问题吗？新闻文章推荐CF领域的研究结果如何？提前多谢

您可以尝试使用对象到对象协作筛选器，而不是用户到对象筛选器。随着时间的推移，淘汰相关对（和低关联对），因为它们在您的用例中基本上是不相关的

那天，我在Netflix Prize上做了一些工作，很快发现，在预测哪些项目是用户的最爱方面，我的表现明显优于基本模型。不幸的是，因为它基本上是一个秩模型，而不是一个标量预测，所以我没有RMSE值来比较

我知道这种方法是有效的，因为我编写了同一系统的生产版本。我早期的测试表明，在一项任务中，删除了50%的用户最受欢迎的电影，对象对对象模型正确地预测（即“替换”）了用户实际喜爱的电影，比基本的slope one模型多16倍。加上桌子的大小是可控的。根据您的应用程序，可以很容易地根据排序顺序等包含盈利能力权重

希望这有帮助！我有一个工作版本在生产中，但仍在寻找测试版客户端，以砰砰的系统。。。如果有人有时间试一试，我很想听听你的意见

杰布·斯通博士

希望这有帮助！我有一个工作版本在生产中，但仍在寻找测试版客户端，以砰砰的系统。。。如果有人有时间试一试，我很想听听你的意见

杰布·斯通博士

稀疏矩阵有什么问题？你的意思是矩阵不适合内存或者结果不准确？稀疏矩阵有什么问题？你的意思是矩阵不符合记忆或者结果不准确？