Machine learning 无监督学习推荐系统的实现

Machine learning 无监督学习推荐系统的实现,machine-learning,recommendation-engine,Machine Learning,Recommendation Engine,我一直在阅读有关推荐系统的论文和书籍,以及建议构建推荐系统的方法。在许多案例中,Netflix的竞争就是一个例子。在Netflix上,用户对电影进行评级(从1到5)。在那场比赛中,参赛者被用户提供了一个电影数据库和相应的评级,他们应该实施一个系统,能够最好地预测电影的评级,并使用该评级向用户推荐电影 对于评估,他们建议使用使用预测和实际评级作为参数的度量进行交叉验证。预测评级是使用用户的历史记录和他对电影的评级来计算的 我正在尝试建立一个新闻推荐系统。我现在面临的问题是,这些新闻只在短时间内相关

我一直在阅读有关推荐系统的论文和书籍,以及建议构建推荐系统的方法。在许多案例中,Netflix的竞争就是一个例子。在Netflix上,用户对电影进行评级(从1到5)。在那场比赛中,参赛者被用户提供了一个电影数据库和相应的评级,他们应该实施一个系统,能够最好地预测电影的评级,并使用该评级向用户推荐电影

对于评估,他们建议使用使用预测和实际评级作为参数的度量进行交叉验证。预测评级是使用用户的历史记录和他对电影的评级来计算的


我正在尝试建立一个新闻推荐系统。我现在面临的问题是,这些新闻只在短时间内相关,几乎没有人会对这些新闻进行评级。所以,我只有隐性反馈(观点),没有显性反馈(评级)。同样在Netflix的问题上,他们也被提供了一个数据库。我想知道如何处理冷启动问题,因为在一开始没有新闻会被阅读(查看)

如果你能建议我如何避免冷启动问题,我将非常感激,一旦我有了一个算法,我将如何测试它是否工作良好


谢谢大家!

为了开始你正在进行的这个项目,我建议通过聚类来找到相关/流行的新闻模式。您以这种方式加入的功能越多,结果就越有价值(这一部分需要仔细选择、研究和统计分析)

对于新闻推荐-您可以采用分层方法,所以假设第一部分是扫描“肯定”的文章/包含对该文章发表评论的人的某些关键字

然后,第二层方法可能是交叉引用twitter对该文章的回复、facebook的like/流量、该文章中有多少pinterest用户的pin等等

你也可以从谷歌、必应等网站查看趋势关键词。。。关于特定主题,这就是如何确保你展示的文章是“相关的”

我还建议从小事做起,因为网络上的文章太多了——也许可以关注一个主题,然后概括一下。正如你可能注意到的,“文章”的受欢迎程度与人们关注的某些声音有关,这是找到文章相关性的另一种方式

以下是有关无监督学习的更多信息:

您可能还想研究期望最大化,以找到哪些变量可以改善您所获得的未观察到的数据。这里有一个完整的解释

电影是经典协同过滤的一个很好的使用案例:它们是人们长期感兴趣的项目,数量相对较少,许多人有重叠的兴趣,明星评级也有意义。新闻报道完全不同。与其说是协作过滤,不如说是基于内容的过滤。这就是人们的兴趣与内容标识符(可以是关于新闻故事或出版商的关键字,或者关于一天中的时间或世界上的地区的元数据)相一致的地方。查看次数是获取有关用户偏好信息的最佳选择,它还允许您使用一些数据挖掘技术,如关联规则挖掘


虽然你仍然会遇到用户冷启动问题——系统中的新用户没有向你提供关于她的偏好的信息,除非你从挖掘她的推特或Facebook兴趣或类似的东西中引导信息——但你可以避免项目冷启动问题。您可以使用另一个语料库,而不是依赖社区中阅读的新闻故事作为获取项目相似性的唯一途径。特别是,试试维基百科,看看WikiBrain()。这是一个API,通过它,您可以获得一个概念与另一个概念的相似性,并将其应用于您的推荐需求。

我正在构建一个推荐系统,该系统也只使用隐式反馈,我对冷启动问题的解决方案是只推荐最受欢迎的项目。这并不是一个真正优雅的解决方案,但有时可能比什么都没有要好。我还认为建议中可能包含“我不认为这个建议项目相关”这样的选项。这将提供一个明确的反馈。在您的情况下,您可能会有一个人口统计推荐人作为默认推荐人,可以根据用户所在国家(或IP地址所在国家)推荐新闻。“我正在尝试建立一个新闻推荐系统”