Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/wix/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 如何验证什么';s噪音是什么';什么是真实数据?_Machine Learning_Noise - Fatal编程技术网

Machine learning 如何验证什么';s噪音是什么';什么是真实数据?

Machine learning 如何验证什么';s噪音是什么';什么是真实数据?,machine-learning,noise,Machine Learning,Noise,我想知道我怎么能声称我正确地捕捉到了数据中的“噪音” 更具体地说,以主成分分析为例,我们知道在主成分分析中,在进行奇异值分解后,我们可以将小奇异值归零,并使用低秩近似重构原始矩阵 那么,我可以说被忽略的确实是数据中的噪声吗? 这有什么评价标准吗 我能想到的唯一方法就是从重构数据中减去原始数据 然后,试着在它上面拟合一个高斯分布,看看拟合是否良好 这是像DSP这样的传统方法吗 顺便说一句,我认为在典型的机器学习任务中,衡量标准应该是后续的分类性能,但因为我只做生成模型,所以没有附加标签。就个人而言

我想知道我怎么能声称我正确地捕捉到了数据中的“噪音”

更具体地说,以主成分分析为例,我们知道在主成分分析中,在进行奇异值分解后,我们可以将小奇异值归零,并使用低秩近似重构原始矩阵

那么,我可以说被忽略的确实是数据中的噪声吗? 这有什么评价标准吗

我能想到的唯一方法就是从重构数据中减去原始数据

然后,试着在它上面拟合一个高斯分布,看看拟合是否良好

这是像DSP这样的传统方法吗


顺便说一句,我认为在典型的机器学习任务中,衡量标准应该是后续的分类性能,但因为我只做生成模型,所以没有附加标签。

就个人而言,如果你想证明降噪的效果,我会使用基于任务的评估。我想你这样做是为了解决一些问题?如果是这样,请使用原始带噪矩阵和新的干净矩阵解决该任务。如果后一种方法效果更好,那么为了您感兴趣的任务,就放弃了噪音。我认为一些客观的噪音测量是很难定义的。

就个人而言,如果你想证明降噪的效果,我会使用基于任务的评估。我想你这样做是为了解决一些问题?如果是这样,请使用原始带噪矩阵和新的干净矩阵解决该任务。如果后一种方法效果更好,那么为了您感兴趣的任务,就放弃了噪音。我认为一些客观的噪声测量是很难定义的。

在我看来,噪声的定义将取决于问题的领域。因此,减少这一风险的策略在每个领域都是不同的

比如说,,在诸如地震地层分类或人脸分类问题上的带噪图像等问题中使用带噪信号,将与医疗诊断问题中不正确标记的数据产生的噪声或由于文档的语言分类问题中具有不同含义的相似词而产生的噪声截然不同

如果噪声是由给定(或一组)数据点引起的,那么解决方案很简单,只要忽略这些数据点即可(尽管在大多数情况下识别这些数据点是一个挑战性的部分)

从您的示例中,我想您更关心的是噪声嵌入到特征中的情况(如地震示例)。有时,人们倾向于使用诸如中值滤波器()之类的降噪滤波器对数据进行预处理。相比之下,其他一些人倾向于降低数据的维数以减少噪声,在这种情况下使用PCA

这两种策略都是有效的,通常人们都会尝试这两种策略,并交叉验证它们,以确定哪种策略效果更好


您所做的是检查高斯噪声的一个很好的度量。然而,对于非高斯噪声,您的度量可能会给您带来假阴性(适应性差,但降噪效果仍然很好)

在我看来,噪声的定义将取决于问题的领域。因此,减少这一风险的策略在每个领域都是不同的

比如说,,在诸如地震地层分类或人脸分类问题上的带噪图像等问题中使用带噪信号,将与医疗诊断问题中不正确标记的数据产生的噪声或由于文档的语言分类问题中具有不同含义的相似词而产生的噪声截然不同

如果噪声是由给定(或一组)数据点引起的,那么解决方案很简单,只要忽略这些数据点即可(尽管在大多数情况下识别这些数据点是一个挑战性的部分)

从您的示例中,我想您更关心的是噪声嵌入到特征中的情况(如地震示例)。有时,人们倾向于使用诸如中值滤波器()之类的降噪滤波器对数据进行预处理。相比之下,其他一些人倾向于降低数据的维数以减少噪声,在这种情况下使用PCA

这两种策略都是有效的,通常人们都会尝试这两种策略,并交叉验证它们,以确定哪种策略效果更好


您所做的是检查高斯噪声的一个很好的度量。然而,对于非高斯噪声,你的度量可以给你假阴性(不好的适应度,但仍然有很好的降噪效果)

我发现了这一点。这是非常有资源的,需要很好的时间去理解。
我找到了这个。这是非常有资源的,需要很好的时间去理解。

谢谢你的回答,但我的问题实际上只与你的最后一段有关,那就是我想“捕捉”噪音。我想这很难像本说的那样定义。谢谢你的回答,但我的问题实际上只与你的最后一段有关,那就是我想“抓住”噪音。我想这很难像本说的那样定义。