Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/templates/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何确保所有用户和所有项目都出现在我的推荐系统的培训集中?_Python_Training Data_Recommender Systems_Test Data - Fatal编程技术网

Python 如何确保所有用户和所有项目都出现在我的推荐系统的培训集中?

Python 如何确保所有用户和所有项目都出现在我的推荐系统的培训集中?,python,training-data,recommender-systems,test-data,Python,Training Data,Recommender Systems,Test Data,我正在使用MovieLens数据集()用Python构建一个推荐系统。为了使我的系统正常工作,我需要所有用户和所有项目都显示在培训集中。然而,我还没有找到一种方法来做到这一点。我尝试在与每个用户相关的数据集分区上使用sklearn.model\u selection.train\u test\u split,然后连接结果,从而成功创建了包含每个用户至少给出一个评级的培训和测试数据集。我现在需要的是找到一种方法来创建培训和测试数据集,这些数据集也至少包含每部电影的一个评级。这个要求非常合理,但我所

我正在使用MovieLens数据集()用Python构建一个推荐系统。为了使我的系统正常工作,我需要所有用户和所有项目都显示在培训集中。然而,我还没有找到一种方法来做到这一点。我尝试在与每个用户相关的数据集分区上使用
sklearn.model\u selection.train\u test\u split
,然后连接结果,从而成功创建了包含每个用户至少给出一个评级的培训和测试数据集。我现在需要的是找到一种方法来创建培训和测试数据集,这些数据集也至少包含每部电影的一个评级。

这个要求非常合理,但我所知道的任何框架的数据摄取例程都不支持。大多数培训范例都假定您的数据集填充充分,因此丢失任何一个输入或输出的可能性可以忽略不计

因为您需要保证这一点,所以您需要切换到算法解决方案,而不是概率解决方案。我建议您使用输入和输出标记每个观察,然后将“集合覆盖问题”应用于数据集

您可以根据需要继续使用任意多个不同的覆盖集来填充培训集(我推荐)。或者,您可以设置一个较低的需求阈值——比如说获得三组总覆盖率——然后对其余部分恢复为随机方法