Algorithm 你将如何应对netflix大奖?

Algorithm 你将如何应对netflix大奖?,algorithm,language-agnostic,Algorithm,Language Agnostic,所以,我只是在野外扎根。我真的不是一个数据挖掘者。我这样问纯粹是出于兴趣,因为我实在没有时间参加这次比赛 但仅仅为了好玩,你会如何应对呢 它的工作原理是这样的:您可以获得一组非常大的电影ID和用户投票。现在给一些用户投票,还有一部电影,他会给这部电影什么评级 编辑所述奖项的URL是好的,以下是我的想法: 我的统计学课上完了一点。但是你可以用混合模型做线性回归,也就是说。E使用虚拟组变量找出每个用户的个人偏差 因此,这将是我的第一步,有一个模型,如: 用户的电影分数=电影分数+用户偏好 每个用户对

所以,我只是在野外扎根。我真的不是一个数据挖掘者。我这样问纯粹是出于兴趣,因为我实在没有时间参加这次比赛

但仅仅为了好玩,你会如何应对呢

它的工作原理是这样的:您可以获得一组非常大的电影ID和用户投票。现在给一些用户投票,还有一部电影,他会给这部电影什么评级

编辑所述奖项的URL是

好的,以下是我的想法:

我的统计学课上完了一点。但是你可以用混合模型做线性回归,也就是说。E使用虚拟组变量找出每个用户的个人偏差

因此,这将是我的第一步,有一个模型,如:

用户的电影分数=电影分数+用户偏好

每个用户对所有电影都有相同的偏好

现在,构建一个这样的图:每个电影都是一个节点,对于每个用户,在用户喜欢的所有电影对之间添加一条边,或将其权重增加一

在图形上运行加权簇编辑以识别电影簇。调整上面“likes”的定义,以获得相当大的集群

现在,我们改进模型:

用户电影评分=电影评分+用户偏差+集群偏差

好吧,有了这些,我就去预测

编辑: 最好做5个聚类。在一种情况下,仅为五星投票添加边。在下一场比赛中,我们将获得四星和五星票。等等

现在的模式是:

用户电影评分=电影评分+一般评分+五星级评分+四五星级评分+…+5-4-3-2-1星偏置


回归预测

很明显,我没有足够好的主意,否则我会把它写下来,而不是贴在这里:)

例如,《连线》杂志就报道了该奖项的进展。大多数团队都会在一段时间后分享他们的知识,所以他们都非常接近,但最后20%的工作似乎(通常)需要80%的努力


我会尝试解决这样的电影问题,它们不符合当前使用的任何图形。你是否喜欢这部电影似乎和你对超人的感觉或《沉默的羔羊》等无关。。。我认为一个足够大的“训练”集可以解决这个问题,但这样的一个集是不可行的,所以我会尝试寻找一种方法将这些古怪的电影进行分类,然后我会以不同的方式处理它们。这似乎是一种你喜欢或讨厌的电影类型,而不是你认为合适的类型,所以我不会使用非线性评级算法。

,也许对于像我这样不完全熟悉线性回归的三位读者来说:他们要求将他们的预测提高10%。这很难。这很难,因为我认为简单地用其他用户给出的平均选择来估计用户的选择可能已经是一个很好的估计器了。我想说的是:没有太多的改进空间。

你可以在这里了解以5万美元获得进步奖的团队以及他们是如何做到的:


大部分我都不懂。在比赛之前,我猜遗传算法是最好的方法,但看起来他们没有使用这种方法。

当然,我们告诉你一些好主意,你赚了很多钱。我们是傻瓜吗?我想,像我建议的那样使用集群编辑会使怪人成为他们自己的集群。也许我应该试试我的想法,看看我有多不对劲。