我是否排除运行predict（）模型的训练集中使用的数据？_R_Machine Learning_Training Data

我是否排除运行predict（）模型的训练集中使用的数据？

r machine-learning

我是否排除运行predict（）模型的训练集中使用的数据？,r,machine-learning,training-data,R,Machine Learning,Training Data,我对机器学习很陌生。我有一个关于在用于训练集的数据上运行predict的问题。以下是详细信息：我从我的初始数据集中提取了一部分，并将该部分分为80%（训练）和20%（测试）。我用80%的训练集训练模型 model当您向第三方报告机器学习模型的准确性时，您总是报告您在培训（和验证）中未使用的数据集上获得的准确性您可以报告所有数据集的准确度数字，但请始终注意，此数据集还包括用于训练机器学习算法的数据分区这是为了确保您的算法没有在您的训练集上过度拟合：当您向第三方报告机器学习模型的准确性时，您总

我对机器学习很陌生。我有一个关于在用于训练集的数据上运行predict的问题。以下是详细信息：我从我的初始数据集中提取了一部分，并将该部分分为80%（训练）和20%（测试）。我用80%的训练集训练模型

model当您向第三方报告机器学习模型的准确性时，您总是报告您在培训（和验证）中未使用的数据集上获得的准确性
您可以报告所有数据集的准确度数字，但请始终注意，此数据集还包括用于训练机器学习算法的数据分区
这是为了确保您的算法没有在您的训练集上过度拟合：
当您向第三方报告机器学习模型的准确性时，您总是报告您在训练（和验证）中未使用的数据集上获得的准确性
您可以报告所有数据集的准确度数字，但请始终注意，此数据集还包括用于训练机器学习算法的数据分区
这是为了确保你的算法没有在你的训练集中过度使用：
朱莉，我在你原来的帖子下面看到了你的评论。我建议您编辑原始帖子，并将您的数据拆分包含在您的问题中，以便更完整。了解您使用的回归/分类方法也会有所帮助
我假设你试图用你遗漏的90%的数据来评估你模型的准确性。根据您在培训集中使用的样本数量，您可能具有或不具有所需的准确性。准确性还取决于您使用的回归/分类方法
直接回答您的问题：您不需要从数据集中排除任何内容-调用predict（）时模型不会更改
当你调用predict时，你所做的就是用你提供的任何数据填充模型中的x变量。您的模型已安装到培训集，因此，如果再次提供培训集数据，它仍将创建预测。但是请注意，为了证明准确性，如果你将适合模型的一组数据包括在内，那么你的结果就会出现偏差，因为这是它在第一时间创建预测时所学到的——有点像观看一场比赛，然后再次观看同一场比赛，并被要求对其进行预测。
Julie，我在你原来的帖子下面看到了你的评论。我建议您编辑原始帖子，并将您的数据拆分包含在您的问题中，以便更完整。了解您使用的回归/分类方法也会有所帮助
我假设你试图用你遗漏的90%的数据来评估你模型的准确性。根据您在培训集中使用的样本数量，您可能具有或不具有所需的准确性。准确性还取决于您使用的回归/分类方法
直接回答您的问题：您不需要从数据集中排除任何内容-调用predict（）时模型不会更改
当你调用predict时，你所做的就是用你提供的任何数据填充模型中的x变量。您的模型已安装到培训集，因此，如果再次提供培训集数据，它仍将创建预测。但是请注意，为了证明准确性，如果你包含了一组适合模型的数据，那么你的结果就会出现偏差，因为这是它在第一时间创建预测时所学到的——有点像观看一场比赛，然后再次观看同一场比赛，并被要求对其进行预测。
这确实更适合，但你需要更清楚地知道你想做什么。看起来您做的事情是正确的，因为您正在根据未经培训的数据评估您的模型。如果您在不包括训练数据集的初始数据集上进行预测，那么您不是只剩下test.df
？你想做什么？@Tchotchke我有一个初始数据集，并获取了其中的一部分，约为10%。然后我将这10%的数据分成训练集和测试集。但我仍然有其余90%的初始数据，这些数据既没有用于训练也没有用于测试。现在我正试图对我的整个数据集进行预测，但它包括了培训和测试中使用的10%的数据。所以我不确定这10%的数据是否应该被排除在外。现在这更清楚了，但你的最终目标是什么？您正在评估模型性能吗？这确实更适合于，但您需要更清楚地了解您正在尝试做什么。看起来您做的事情是正确的，因为您正在根据未经培训的数据评估您的模型。如果您在不包括训练数据集的初始数据集上进行预测，那么您不是只剩下test.df
？你想做什么？@Tchotchke我有一个初始数据集，并获取了其中的一部分，约为10%。然后我将这10%的数据分成训练集和测试集。但我仍然有其余90%的初始数据，这些数据既没有用于训练也没有用于测试。现在我正试图对我的整个数据集进行预测，但它包括了培训和测试中使用的10%的数据。所以我不确定这10%的数据是否应该被排除在外。现在这更清楚了，但你的最终目标是什么？您正在评估模型性能吗？