Machine learning 为什么蒙克';s问题';测试集比他们的火车集大?

Machine learning 为什么蒙克';s问题';测试集比他们的火车集大?,machine-learning,Machine Learning,我意识到所有的测试集都比他们的火车集大。 为什么这个数据集是这样组织的?我认为这很奇怪,即使它是用于模型比较的虚拟数据集 星期一 列车样本:124 测试样本:432 星期二 列车样本:169 测试样本:432 Monk3 列车样本:122 测试样本:432从机器学习的角度来看,测试集有多大根本不重要。为什么它会困扰你?现实世界看起来完全一样:您有N个标记样本用于训练,但有N*10、N*1000、N*10^9或更多真实案例,因此每个(手动标记的,固定的)测试集必然太小。我们的目标是建立一个具有代表

我意识到所有的测试集都比他们的火车集大。 为什么这个数据集是这样组织的?我认为这很奇怪,即使它是用于模型比较的虚拟数据集

星期一 列车样本:124 测试样本:432

星期二 列车样本:169 测试样本:432

Monk3 列车样本:122
测试样本:432

从机器学习的角度来看,测试集有多大根本不重要。为什么它会困扰你?现实世界看起来完全一样:您有N个标记样本用于训练,但有N*10、N*1000、N*10^9或更多真实案例,因此每个(手动标记的,固定的)测试集必然太小。我们的目标是建立一个具有代表性的集合,涵盖我们在现实世界中所期望的一切,如果这意味着有一个YUGE™ 测试集,那么你能做的最好的事情就是让测试集比训练集大

在这个特殊的例子中(我不熟悉这个特殊的任务),它看起来像你引用的网站

有三个和尚的问题。所有MONK问题的域都是相同的(如下所述)。僧侣的一个问题是增加了噪音。对于每个问题,域被划分为一个训练集和测试集

该报链接如下

《机器学习:多策略方法》,第4卷,R.S.Michalski和G.Tecuci(编辑),摩根·考夫曼,加利福尼亚州圣马特奥,1993年

第20页内容如下:

因此,在这个特定场景中,作者选择了不同的训练条件,因此选择了三个训练集。据

Leondes,Cornelius T.图像处理和模式识别。第五卷。爱思唯尔,1998年

他们使用所有432个可用样本进行训练,并根据这些数据的子集进行训练


在训练和测试数据之间有重叠被认为是不好的做法,但我是谁来评判25年前在一个我不熟悉的领域的研究。可能获取更多数据和进行清晰划分太困难了。

从机器学习的角度来看,测试集有多大是绝对重要的,因为可用标记数据的数量是有限的,并且在训练、验证和测试集之间进行划分。实际上,每一个留作测试的样本都少了一个用于培训的样本。通常的做法是使用。因此,我们很自然会想,为什么只有不到30%的数据用于培训。这是一个数据管理问题和针对特定任务的实际考虑,而不是算法约束或理论要求。我同意,从今天的角度来看,这似乎是一个奇怪的选择,我不建议在任何新的任务设计中进行这样的拆分。