Twitter 新闻文章或博客文章的协同过滤

Twitter 新闻文章或博客文章的协同过滤,twitter,recommendation-engine,sparse-matrix,collaborative-filtering,Twitter,Recommendation Engine,Sparse Matrix,Collaborative Filtering,大家都知道协同过滤(CF)是如何用于电影、音乐和书籍推荐的。在论文中,作者展示了一个应用于约5500名用户和约17000篇科学文章的协同过滤示例。对于约200000个用户项目对,用户文章矩阵显然是高度稀疏的 如果您对Twitter上共享的所有新闻文章进行协作过滤,会怎么样?矩阵将更加稀疏(比科学文章案例中的矩阵稀疏),这使得CF不太适用。当然,我们可以做一些内容感知分析(考虑到文章的文本),但这不是我的重点。或者我们可以潜在地限制我们的时间窗口(例如,关注最后一天或一周内共享的所有新闻文章),以

大家都知道协同过滤(CF)是如何用于电影、音乐和书籍推荐的。在论文中,作者展示了一个应用于约5500名用户和约17000篇科学文章的协同过滤示例。对于约200000个用户项目对,用户文章矩阵显然是高度稀疏的


如果您对Twitter上共享的所有新闻文章进行协作过滤,会怎么样?矩阵将更加稀疏(比科学文章案例中的矩阵稀疏),这使得CF不太适用。当然,我们可以做一些内容感知分析(考虑到文章的文本),但这不是我的重点。或者我们可以潜在地限制我们的时间窗口(例如,关注最后一天或一周内共享的所有新闻文章),以使用户文章矩阵更加密集。还有什么其他的想法可以解决矩阵非常稀疏的问题吗?新闻文章推荐CF领域的研究结果如何?提前多谢

您可以尝试使用对象到对象协作筛选器,而不是用户到对象筛选器。随着时间的推移,淘汰相关对(和低关联对),因为它们在您的用例中基本上是不相关的

那天,我在Netflix Prize上做了一些工作,很快发现,在预测哪些项目是用户的最爱方面,我的表现明显优于基本模型。不幸的是,因为它基本上是一个秩模型,而不是一个标量预测,所以我没有RMSE值来比较

我知道这种方法是有效的,因为我编写了同一系统的生产版本。我早期的测试表明,在一项任务中,删除了50%的用户最受欢迎的电影,对象对对象模型正确地预测(即“替换”)了用户实际喜爱的电影,比基本的slope one模型多16倍。加上桌子的大小是可控的。根据您的应用程序,可以很容易地根据排序顺序等包含盈利能力权重

希望这有帮助!我有一个工作版本在生产中,但仍在寻找测试版客户端,以砰砰的系统。。。如果有人有时间试一试,我很想听听你的意见

杰布·斯通博士


您可以尝试使用对象到对象协作筛选器,而不是用户到对象筛选器。随着时间的推移,淘汰相关对(和低关联对),因为它们在您的用例中基本上是不相关的

那天,我在Netflix Prize上做了一些工作,很快发现,在预测哪些项目是用户的最爱方面,我的表现明显优于基本模型。不幸的是,因为它基本上是一个秩模型,而不是一个标量预测,所以我没有RMSE值来比较

我知道这种方法是有效的,因为我编写了同一系统的生产版本。我早期的测试表明,在一项任务中,删除了50%的用户最受欢迎的电影,对象对对象模型正确地预测(即“替换”)了用户实际喜爱的电影,比基本的slope one模型多16倍。加上桌子的大小是可控的。根据您的应用程序,可以很容易地根据排序顺序等包含盈利能力权重

希望这有帮助!我有一个工作版本在生产中,但仍在寻找测试版客户端,以砰砰的系统。。。如果有人有时间试一试,我很想听听你的意见

杰布·斯通博士


稀疏矩阵有什么问题?你的意思是矩阵不适合内存或者结果不准确?稀疏矩阵有什么问题?你的意思是矩阵不符合记忆或者结果不准确?