Machine learning 为什么蒙克'；s问题'；测试集比他们的火车集大？_Machine Learning

Machine learning 为什么蒙克'；s问题'；测试集比他们的火车集大？

machine-learning

Machine learning 为什么蒙克'；s问题'；测试集比他们的火车集大？,machine-learning,Machine Learning,我意识到所有的测试集都比他们的火车集大。为什么这个数据集是这样组织的？我认为这很奇怪，即使它是用于模型比较的虚拟数据集星期一列车样本：124 测试样本：432 星期二列车样本：169 测试样本：432 Monk3 列车样本：122 测试样本：432从机器学习的角度来看，测试集有多大根本不重要。为什么它会困扰你？现实世界看起来完全一样：您有N个标记样本用于训练，但有N*10、N*1000、N*10^9或更多真实案例，因此每个（手动标记的，固定的）测试集必然太小。我们的目标是建立一个具有代表

我意识到所有的测试集都比他们的火车集大。为什么这个数据集是这样组织的？我认为这很奇怪，即使它是用于模型比较的虚拟数据集

星期一列车样本：124 测试样本：432

星期二列车样本：169 测试样本：432

Monk3 列车样本：122

测试样本：432

从机器学习的角度来看，测试集有多大根本不重要。为什么它会困扰你？现实世界看起来完全一样：您有N个标记样本用于训练，但有N*10、N*1000、N*10^9或更多真实案例，因此每个（手动标记的，固定的）测试集必然太小。我们的目标是建立一个具有代表性的集合，涵盖我们在现实世界中所期望的一切，如果这意味着有一个YUGE™ 测试集，那么你能做的最好的事情就是让测试集比训练集大

在这个特殊的例子中（我不熟悉这个特殊的任务），它看起来像你引用的网站

有三个和尚的问题。所有MONK问题的域都是相同的（如下所述）。僧侣的一个问题是增加了噪音。对于每个问题，域被划分为一个训练集和测试集

该报链接如下

《机器学习：多策略方法》，第4卷，R.S.Michalski和G.Tecuci（编辑），摩根·考夫曼，加利福尼亚州圣马特奥，1993年

第20页内容如下：

因此，在这个特定场景中，作者选择了不同的训练条件，因此选择了三个训练集。据

Leondes，Cornelius T.图像处理和模式识别。第五卷。爱思唯尔，1998年

他们使用所有432个可用样本进行训练，并根据这些数据的子集进行训练

在训练和测试数据之间有重叠被认为是不好的做法，但我是谁来评判25年前在一个我不熟悉的领域的研究。可能获取更多数据和进行清晰划分太困难了。

从机器学习的角度来看，测试集有多大是绝对重要的，因为可用标记数据的数量是有限的，并且在训练、验证和测试集之间进行划分。实际上，每一个留作测试的样本都少了一个用于培训的样本。通常的做法是使用。因此，我们很自然会想，为什么只有不到30%的数据用于培训。这是一个数据管理问题和针对特定任务的实际考虑，而不是算法约束或理论要求。我同意，从今天的角度来看，这似乎是一个奇怪的选择，我不建议在任何新的任务设计中进行这样的拆分。