Statistics 多目标回归/插值

Statistics 多目标回归/插值,statistics,regression,prediction,data-science,Statistics,Regression,Prediction,Data Science,寻找一些关于我面前问题的建议 我有一组用户观看的电影数据。对于一些用户,我们知道他们观看了这部电影,以及他们对这部电影的评价。对于许多其他人来说,我们知道他们看过这部电影,但不知道他们对那部电影的评价 我正在寻找一种方法,根据具有电影评级的更大数据集,对用户观看的电影应用预测或插值评级。我正试图找出最好的解决办法。我有150万用户和2万部电影;然而,只有10%的电影被85%的用户评价 因此,我的方法是查看余弦相似性,并根据邻居对评分进行插值;如果最近的邻居没有特定电影的值,则转到下一个最近的,直

寻找一些关于我面前问题的建议

我有一组用户观看的电影数据。对于一些用户,我们知道他们观看了这部电影,以及他们对这部电影的评价。对于许多其他人来说,我们知道他们看过这部电影,但不知道他们对那部电影的评价

我正在寻找一种方法,根据具有电影评级的更大数据集,对用户观看的电影应用预测或插值评级。我正试图找出最好的解决办法。我有150万用户和2万部电影;然而,只有10%的电影被85%的用户评价

因此,我的方法是查看余弦相似性,并根据邻居对评分进行插值;如果最近的邻居没有特定电影的值,则转到下一个最近的,直到所有电影都有评级。另一种方法是使用NNMF来应用评级,它有2个*特性——一个是电影的二进制表示,另一个是评级。因此,当我为用户“预测”时,我将输入他们的二进制电影值,它将返回他们的收视率


我的问题是:NNMF方法有意义吗?我从未以那种方式使用过NNMF。还有,你认为还有其他的模式有意义吗?我想知道他们是否更像是一种可以使用的预测算法,而不是插值。

您正在处理丢失的数据。这将始终取决于上下文和域。在这种情况下,请注意,一个观看了某个内容但没有费心给它打分的用户很可能既不喜欢也不讨厌它——我会用中间值填充缺少的评分。另外,我认为你们应该把这个贴在Cross Valided with上。你们正在处理丢失的数据。这将始终取决于上下文和域。在这种情况下,请注意,一个观看了某个内容但没有费心给它打分的用户很可能既不喜欢也不讨厌它——我会用中间值填充缺少的评分。还有,我想你们应该把这个贴在十字架上。