Service 物品推荐服务

Service 物品推荐服务,service,recommendation-engine,collaborative-filtering,Service,Recommendation Engine,Collaborative Filtering,我应该用MyMediaLite做图书推荐服务。到目前为止,我已经使用Nutch crawler从网站上收集书籍,并将信息存储到hbase中。问题是我实际上并不完全理解这一切是如何运作的。举例来说,我必须通过测试数据和培训数据文件,以及用户项目id对和评分。但关于这本书的其他信息呢,比如类别和作者?在没有用户信息的情况下,如何通过信息等找到“相似”的书籍(到目前为止)?是否可以直接从hbase传递数据,而不将数据存储到文件中然后导入? 或者为了更好地适应Apache Mahout或LibRec?通

我应该用MyMediaLite做图书推荐服务。到目前为止,我已经使用Nutch crawler从网站上收集书籍,并将信息存储到hbase中。问题是我实际上并不完全理解这一切是如何运作的。举例来说,我必须通过测试数据和培训数据文件,以及用户项目id对和评分。但关于这本书的其他信息呢,比如类别和作者?在没有用户信息的情况下,如何通过信息等找到“相似”的书籍(到目前为止)?是否可以直接从hbase传递数据,而不将数据存储到文件中然后导入?
或者为了更好地适应Apache Mahout或LibRec?

通常在矩阵中的用户项目评级信息是协作过滤算法(用户-用户CF、项目-项目CF、矩阵分解等)的基础。你在利用别人的意见来形成建议。对物品本身的内容没有天生的认识。为此,您需要某种基于内容的过滤算法或数据挖掘技术。这些通常用于您描述的“用户冷启动”场景:您有很多关于项目的信息,但没有关于特定用户偏好的信息


首先,想想你的最终目标和你拥有的数据。根据您的产品需求和可用数据,您可以为您的目的选择正确的算法。我强烈推荐Coursera上的RecSys课程,以了解更多信息:。它是由该领域的一位领导者教授的。

稍后我将收集有关使用Piwik的用户的数据。我猜要得到任何基于作者/类别的建议,我必须使用像ItemAttributeKNN这样的方法?谢谢你的回答!