Machine learning 神经网络测试用例

Machine learning 神经网络测试用例,machine-learning,neural-network,testcase,Machine Learning,Neural Network,Testcase,在使用精密神经网络的情况下,增加测试用例训练数据的数量是否会导致诸如过度拟合之类的问题 增加测试用例训练数据的数量总是好的吗?这会一直导致转化吗 如果没有,这些情况是什么。。举个例子会更好 谢谢,当你说测试用例时,我假设你说的是数据实例 让我们看几个场景: 反各向异性 假设您有一个包含1000个实例的培训数据集,它们彼此都非常相似,但资格数据集中的实例与您的培训数据明显不同。例如,您有一个问题,您试图估计函数y=mx+b 假设您的一些数据集为您提供了帮助您估计m的样本,而其他数据集则帮助您估计b

在使用精密神经网络的情况下,增加测试用例训练数据的数量是否会导致诸如过度拟合之类的问题

增加测试用例训练数据的数量总是好的吗?这会一直导致转化吗

如果没有,这些情况是什么。。举个例子会更好


谢谢,

当你说测试用例时,我假设你说的是数据实例

让我们看几个场景:

反各向异性 假设您有一个包含1000个实例的培训数据集,它们彼此都非常相似,但资格数据集中的实例与您的培训数据明显不同。例如,您有一个问题,您试图估计函数y=mx+b

假设您的一些数据集为您提供了帮助您估计m的样本,而其他数据集则帮助您估计b。如果你为你的神经网络提供1000个样本来帮助你估计b,但只有5个样本可以帮助你估计m,那么你的神经网络在估计m时会表现得非常糟糕。你将过度拟合你的神经网络,增加更多的样本来帮助你估计b将没有任何帮助

各向同性 现在假设您有一个比例分布注释,我没有说数据集中的数据实例数相等。。。您希望它们是成比例的,因为您可能需要更多的数据实例来估计m,而不是估计b。现在,您的数据相对同质,添加更多样本将为您提供更多机会,帮助您更好地估计函数。使用y=mx+b,从技术上讲,您可以拥有无限多的数据实例,因为这条线在两个方向上都是无限的,这可能会有所帮助,但存在一个收益递减点

收益递减 对于y=mx+b示例,您可能有无限多的数据实例,但如果您可以估计1000个实例的函数,那么向数据集中再添加100000个数据实例可能没有什么用处。在某些情况下,添加更多的实例将不会产生更好的适应性,因此收益将递减

现在假设您试图估计一个类似XOR的布尔函数:

A    B   A XOR B
1    1      0
1    0      1
0    1      1
0    0      0
在这种情况下,您无法添加更多数据,添加更多数据也没有意义。。。只有四个有效的数据实例,这就是您所拥有的全部。在这个例子中,添加更多的数据实例毫无意义

结论
一般来说,添加更多的数据实例将直接取决于您的问题:一些问题可能会从更多的数据实例中受益,而其他问题可能会受到影响。你必须分析你的数据集,你可能必须对你的数据集做一些事情,使你的样本更能代表真实世界的数据。你必须研究你试图解决的问题,了解它的领域,了解它拥有的数据样本,你必须相应地计划。。。在机器学习/人工智能中没有一刀切的解决方案。

当你说测试用例时,我假设你说的是数据实例

让我们看几个场景:

反各向异性 假设您有一个包含1000个实例的培训数据集,它们彼此都非常相似,但资格数据集中的实例与您的培训数据明显不同。例如,您有一个问题,您试图估计函数y=mx+b

假设您的一些数据集为您提供了帮助您估计m的样本,而其他数据集则帮助您估计b。如果你为你的神经网络提供1000个样本来帮助你估计b,但只有5个样本可以帮助你估计m,那么你的神经网络在估计m时会表现得非常糟糕。你将过度拟合你的神经网络,增加更多的样本来帮助你估计b将没有任何帮助

各向同性 现在假设您有一个比例分布注释,我没有说数据集中的数据实例数相等。。。您希望它们是成比例的,因为您可能需要更多的数据实例来估计m,而不是估计b。现在,您的数据相对同质,添加更多样本将为您提供更多机会,帮助您更好地估计函数。使用y=mx+b,从技术上讲,您可以拥有无限多的数据实例,因为这条线在两个方向上都是无限的,这可能会有所帮助,但存在一个收益递减点

收益递减 对于y=mx+b示例,您可能有无限多的数据实例,但如果您可以估计1000个实例的函数,那么向数据集中再添加100000个数据实例可能没有什么用处。在某些情况下,添加更多的实例将不会产生更好的适应性,因此收益将递减 现在假设您试图估计一个类似XOR的布尔函数:

A    B   A XOR B
1    1      0
1    0      1
0    1      1
0    0      0
在这种情况下,您无法添加更多数据,添加更多数据也没有意义。。。只有四个有效的数据实例,这就是您所拥有的全部。在这个例子中,添加更多的数据实例毫无意义

结论
一般来说,添加更多的数据实例将直接取决于您的问题:一些问题可能会从更多的数据实例中受益,而其他问题可能会受到影响。你必须分析你的数据集,你可能必须对你的数据集做一些事情,使你的样本更能代表真实世界的数据。你必须研究你试图解决的问题,了解它的领域,了解它拥有的数据样本,你必须相应地计划。。。机器学习/人工智能中没有一刀切的解决方案。

过度拟合问题指的是用许多神经元构建网络,因此当你意识到训练过程时,网络调整得太好了。换句话说,这就像拟合一个n级多项式,你的数据是m大小,其中n在m附近大于o。 由于函数中有很多等级,拟合会更好,但这并不意味着这条曲线是最好的。当NN出现同样的情况时,神经元和错误之间的关系正在减少,更像是一个微笑


没有证据表明更多的数据会导致更多的错误,但一些工作应用主成分对数据进行预分析,以捕捉更好的关系。

过度拟合问题指的是构建包含多个神经元的网络,因此当你意识到训练过程时,网络调整得太好了。换句话说,这就像拟合一个n级多项式,你的数据是m大小,其中n在m附近大于o。 由于函数中有很多等级,拟合会更好,但这并不意味着这条曲线是最好的。当NN出现同样的情况时,神经元和错误之间的关系正在减少,更像是一个微笑


没有证据表明更多的数据会导致更多的错误,但有些作品使用主成分对数据进行预分析,以捕捉更好的关系。

@Jeff,这看起来不像是家庭作业。。。如果它与学校有关,那么它就不会询问测试用例。@Jeff,它看起来不像家庭作业。。。如果它与学校有关,那么它就不会询问测试用例。我一直认为布尔运算符模拟是ANN使用的一个糟糕的例子。。。一个简单但更实用的例子是一个普通函数,例如高斯函数或s形函数,取决于激活函数,最后一个对于NN来说是非常简单的,但是,我也不是这个例子的粉丝,但它在教科书中是经典的。我几乎为自己给出的那个例子感到震惊。我一直认为布尔运算符模拟是ANN使用的一个糟糕的例子。。。一个简单但更实用的例子是一个普通函数,例如高斯函数或s形函数,取决于激活函数,最后一个对于NN来说是非常简单的,但是,我也不是这个例子的粉丝,但它在教科书中是经典的。我几乎为自己举了那个例子而感到恶心。