Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/72.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
我是否排除运行predict()模型的训练集中使用的数据?_R_Machine Learning_Training Data - Fatal编程技术网

我是否排除运行predict()模型的训练集中使用的数据?

我是否排除运行predict()模型的训练集中使用的数据?,r,machine-learning,training-data,R,Machine Learning,Training Data,我对机器学习很陌生。我有一个关于在用于训练集的数据上运行predict的问题。 以下是详细信息:我从我的初始数据集中提取了一部分,并将该部分分为80%(训练)和20%(测试)。我用80%的训练集训练模型 model当您向第三方报告机器学习模型的准确性时,您总是报告您在培训(和验证)中未使用的数据集上获得的准确性 您可以报告所有数据集的准确度数字,但请始终注意,此数据集还包括用于训练机器学习算法的数据分区 这是为了确保您的算法没有在您的训练集上过度拟合:当您向第三方报告机器学习模型的准确性时,您总

我对机器学习很陌生。我有一个关于在用于训练集的数据上运行predict的问题。 以下是详细信息:我从我的初始数据集中提取了一部分,并将该部分分为80%(训练)和20%(测试)。我用80%的训练集训练模型


model当您向第三方报告机器学习模型的准确性时,您总是报告您在培训(和验证)中未使用的数据集上获得的准确性

您可以报告所有数据集的准确度数字,但请始终注意,此数据集还包括用于训练机器学习算法的数据分区


这是为了确保您的算法没有在您的训练集上过度拟合:

当您向第三方报告机器学习模型的准确性时,您总是报告您在训练(和验证)中未使用的数据集上获得的准确性

您可以报告所有数据集的准确度数字,但请始终注意,此数据集还包括用于训练机器学习算法的数据分区


这是为了确保你的算法没有在你的训练集中过度使用:

朱莉,我在你原来的帖子下面看到了你的评论。我建议您编辑原始帖子,并将您的数据拆分包含在您的问题中,以便更完整。了解您使用的回归/分类方法也会有所帮助

我假设你试图用你遗漏的90%的数据来评估你模型的准确性。根据您在培训集中使用的样本数量,您可能具有或不具有所需的准确性。准确性还取决于您使用的回归/分类方法

直接回答您的问题:您不需要从数据集中排除任何内容-调用predict()时模型不会更改


当你调用predict时,你所做的就是用你提供的任何数据填充模型中的x变量。您的模型已安装到培训集,因此,如果再次提供培训集数据,它仍将创建预测。但是请注意,为了证明准确性,如果你将适合模型的一组数据包括在内,那么你的结果就会出现偏差,因为这是它在第一时间创建预测时所学到的——有点像观看一场比赛,然后再次观看同一场比赛,并被要求对其进行预测。

Julie,我在你原来的帖子下面看到了你的评论。我建议您编辑原始帖子,并将您的数据拆分包含在您的问题中,以便更完整。了解您使用的回归/分类方法也会有所帮助

我假设你试图用你遗漏的90%的数据来评估你模型的准确性。根据您在培训集中使用的样本数量,您可能具有或不具有所需的准确性。准确性还取决于您使用的回归/分类方法

直接回答您的问题:您不需要从数据集中排除任何内容-调用predict()时模型不会更改


当你调用predict时,你所做的就是用你提供的任何数据填充模型中的x变量。您的模型已安装到培训集,因此,如果再次提供培训集数据,它仍将创建预测。但是请注意,为了证明准确性,如果你包含了一组适合模型的数据,那么你的结果就会出现偏差,因为这是它在第一时间创建预测时所学到的——有点像观看一场比赛,然后再次观看同一场比赛,并被要求对其进行预测。

这确实更适合,但你需要更清楚地知道你想做什么。看起来您做的事情是正确的,因为您正在根据未经培训的数据评估您的模型。如果您在不包括训练数据集的初始数据集上进行预测,那么您不是只剩下
test.df
?你想做什么?@Tchotchke我有一个初始数据集,并获取了其中的一部分,约为10%。然后我将这10%的数据分成训练集和测试集。但我仍然有其余90%的初始数据,这些数据既没有用于训练也没有用于测试。现在我正试图对我的整个数据集进行预测,但它包括了培训和测试中使用的10%的数据。所以我不确定这10%的数据是否应该被排除在外。现在这更清楚了,但你的最终目标是什么?您正在评估模型性能吗?这确实更适合于,但您需要更清楚地了解您正在尝试做什么。看起来您做的事情是正确的,因为您正在根据未经培训的数据评估您的模型。如果您在不包括训练数据集的初始数据集上进行预测,那么您不是只剩下
test.df
?你想做什么?@Tchotchke我有一个初始数据集,并获取了其中的一部分,约为10%。然后我将这10%的数据分成训练集和测试集。但我仍然有其余90%的初始数据,这些数据既没有用于训练也没有用于测试。现在我正试图对我的整个数据集进行预测,但它包括了培训和测试中使用的10%的数据。所以我不确定这10%的数据是否应该被排除在外。现在这更清楚了,但你的最终目标是什么?您正在评估模型性能吗?