Machine learning 无监督学习推荐系统的实现_Machine Learning_Recommendation Engine

Machine learning 无监督学习推荐系统的实现

machine-learning

Machine learning 无监督学习推荐系统的实现,machine-learning,recommendation-engine,Machine Learning,Recommendation Engine,我一直在阅读有关推荐系统的论文和书籍，以及建议构建推荐系统的方法。在许多案例中，Netflix的竞争就是一个例子。在Netflix上，用户对电影进行评级（从1到5）。在那场比赛中，参赛者被用户提供了一个电影数据库和相应的评级，他们应该实施一个系统，能够最好地预测电影的评级，并使用该评级向用户推荐电影对于评估，他们建议使用使用预测和实际评级作为参数的度量进行交叉验证。预测评级是使用用户的历史记录和他对电影的评级来计算的我正在尝试建立一个新闻推荐系统。我现在面临的问题是，这些新闻只在短时间内相关

我一直在阅读有关推荐系统的论文和书籍，以及建议构建推荐系统的方法。在许多案例中，Netflix的竞争就是一个例子。在Netflix上，用户对电影进行评级（从1到5）。在那场比赛中，参赛者被用户提供了一个电影数据库和相应的评级，他们应该实施一个系统，能够最好地预测电影的评级，并使用该评级向用户推荐电影

对于评估，他们建议使用使用预测和实际评级作为参数的度量进行交叉验证。预测评级是使用用户的历史记录和他对电影的评级来计算的

我正在尝试建立一个新闻推荐系统。我现在面临的问题是，这些新闻只在短时间内相关，几乎没有人会对这些新闻进行评级。所以，我只有隐性反馈（观点），没有显性反馈（评级）。同样在Netflix的问题上，他们也被提供了一个数据库。我想知道如何处理冷启动问题，因为在一开始没有新闻会被阅读（查看）

如果你能建议我如何避免冷启动问题，我将非常感激，一旦我有了一个算法，我将如何测试它是否工作良好

谢谢大家!

为了开始你正在进行的这个项目，我建议通过聚类来找到相关/流行的新闻模式。您以这种方式加入的功能越多，结果就越有价值（这一部分需要仔细选择、研究和统计分析）

对于新闻推荐-您可以采用分层方法，所以假设第一部分是扫描“肯定”的文章/包含对该文章发表评论的人的某些关键字

然后，第二层方法可能是交叉引用twitter对该文章的回复、facebook的like/流量、该文章中有多少pinterest用户的pin等等

你也可以从谷歌、必应等网站查看趋势关键词。。。关于特定主题，这就是如何确保你展示的文章是“相关的”

我还建议从小事做起，因为网络上的文章太多了——也许可以关注一个主题，然后概括一下。正如你可能注意到的，“文章”的受欢迎程度与人们关注的某些声音有关，这是找到文章相关性的另一种方式

以下是有关无监督学习的更多信息：

您可能还想研究期望最大化，以找到哪些变量可以改善您所获得的未观察到的数据。这里有一个完整的解释

电影是经典协同过滤的一个很好的使用案例：它们是人们长期感兴趣的项目，数量相对较少，许多人有重叠的兴趣，明星评级也有意义。新闻报道完全不同。与其说是协作过滤，不如说是基于内容的过滤。这就是人们的兴趣与内容标识符（可以是关于新闻故事或出版商的关键字，或者关于一天中的时间或世界上的地区的元数据）相一致的地方。查看次数是获取有关用户偏好信息的最佳选择，它还允许您使用一些数据挖掘技术，如关联规则挖掘

虽然你仍然会遇到用户冷启动问题——系统中的新用户没有向你提供关于她的偏好的信息，除非你从挖掘她的推特或Facebook兴趣或类似的东西中引导信息——但你可以避免项目冷启动问题。您可以使用另一个语料库，而不是依赖社区中阅读的新闻故事作为获取项目相似性的唯一途径。特别是，试试维基百科，看看WikiBrain（）。这是一个API，通过它，您可以获得一个概念与另一个概念的相似性，并将其应用于您的推荐需求。

我正在构建一个推荐系统，该系统也只使用隐式反馈，我对冷启动问题的解决方案是只推荐最受欢迎的项目。这并不是一个真正优雅的解决方案，但有时可能比什么都没有要好。我还认为建议中可能包含“我不认为这个建议项目相关”这样的选项。这将提供一个明确的反馈。在您的情况下，您可能会有一个人口统计推荐人作为默认推荐人，可以根据用户所在国家（或IP地址所在国家）推荐新闻。“我正在尝试建立一个新闻推荐系统”