Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/string/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 不使用开发集时的偏差_Machine Learning - Fatal编程技术网

Machine learning 不使用开发集时的偏差

Machine learning 不使用开发集时的偏差,machine-learning,Machine Learning,我正在使用10倍交叉验证在Weka中执行一个小的分类任务。对于特征选择和调整分类器的参数,我使用了一小部分数据。我知道通常应该使用训练和开发集,但由于时间和计算能力不足,我只使用了所有数据的一小部分。这会使结果产生偏差吗?谢谢 是的。根据偏差的定义,使用一个小集合意味着你对你决定训练的任何部分都会有更高的偏差。但是,如果从较大的数据集中随机选择小样本,这种偏差将大大减小 如果只是使用一小部分数据,10倍交叉验证就没有多大意义。交叉验证的思想是将一个大型数据集分成多个部分,使用其中的交替部分作为训

我正在使用10倍交叉验证在Weka中执行一个小的分类任务。对于特征选择和调整分类器的参数,我使用了一小部分数据。我知道通常应该使用训练和开发集,但由于时间和计算能力不足,我只使用了所有数据的一小部分。这会使结果产生偏差吗?谢谢

是的。根据偏差的定义,使用一个小集合意味着你对你决定训练的任何部分都会有更高的偏差。但是,如果从较大的数据集中随机选择小样本,这种偏差将大大减小

如果只是使用一小部分数据,10倍交叉验证就没有多大意义。交叉验证的思想是将一个大型数据集分成多个部分,使用其中的交替部分作为训练集和测试集进行训练,迭代直到找到所有交叉验证集的最佳解决方案

如果你没有太多的时间或计算能力,我的第一个建议是减少你的10倍简历检查。这意味着您可以在相同的计算时间内包含更大比例的数据集,并在决定哪一个模型更具发展潜力之前,快速评估Weka中的许多不同模型


如果您有选择的话,对于您的最终数据运行,我强烈建议您使用完整集,但在您决定使用哪种算法时,使用完整集的一部分并不可怕。

是的。根据偏差的定义,使用一个小集合意味着你对你决定训练的任何部分都会有更高的偏差。但是,如果从较大的数据集中随机选择小样本,这种偏差将大大减小

如果只是使用一小部分数据,10倍交叉验证就没有多大意义。交叉验证的思想是将一个大型数据集分成多个部分,使用其中的交替部分作为训练集和测试集进行训练,迭代直到找到所有交叉验证集的最佳解决方案

如果你没有太多的时间或计算能力,我的第一个建议是减少你的10倍简历检查。这意味着您可以在相同的计算时间内包含更大比例的数据集,并在决定哪一个模型更具发展潜力之前,快速评估Weka中的许多不同模型


如果您有选择的话,对于您的最终数据运行,我强烈建议您使用完整集,但在您决定使用哪种算法时,使用完整集的一部分并不可怕。

可能更适合stats.stackexchange.com,您需要详细说明您的数据等。一般来说,是的,这会导致偏见,但如果您受到计算能力和/或可用数据的限制,这仍然可能是一个好主意。@EMS谢谢!我会在那里问我的问题!:)可能更适合stats.stackexchange.com,您需要详细说明您的数据等。一般来说,这会导致偏差,但如果您受到计算能力和/或可用数据的限制,这仍然可能是一个好主意。@EMS谢谢!我会在那里问我的问题!:)谢谢我知道最好在更大的数据块上进行测试,以避免过度拟合。但我是否仍然运行10倍CV?理想情况下,是的,在完整的数据集上,您仍然会交叉验证。如果你愿意,你可以把它降到一个较低的数字,比如3或5倍。谢谢!我知道最好在更大的数据块上进行测试,以避免过度拟合。但我是否仍然运行10倍CV?理想情况下,是的,在完整的数据集上,您仍然会交叉验证。如果你愿意,你可以把它降到一个较低的数字,比如3或5倍。