Machine learning 如果数据集具有~2000个特征,并且可以';不要单独查看每个功能

Machine learning 如果数据集具有~2000个特征,并且可以';不要单独查看每个功能,machine-learning,data-science,outliers,data-science-experience,Machine Learning,Data Science,Outliers,Data Science Experience,我想知道人们是如何大规模地处理异常值的。根据我的经验,我通常需要首先理解为什么会有异常值。是什么原因造成的,是否有任何模式,或者只是随机发生的。我知道,理论上,我们通常将异常值定义为3个标准偏差之外的数据点。但是,如果数据太大,无法逐个处理每个特征,并且由于稀疏性不知道3标准偏差规则是否适用,那么我们如何最有效地处理异常值呢 我对高维数据的直觉是,数据是稀疏的,因此“异常值”的定义更难确定。你们认为我们可以使用对异常值(基于树的模型、鲁棒SVM等)更鲁棒的ML算法,而不是在预处理阶段尝试处理异常

我想知道人们是如何大规模地处理异常值的。根据我的经验,我通常需要首先理解为什么会有异常值。是什么原因造成的,是否有任何模式,或者只是随机发生的。我知道,理论上,我们通常将异常值定义为3个标准偏差之外的数据点。但是,如果数据太大,无法逐个处理每个特征,并且由于稀疏性不知道3标准偏差规则是否适用,那么我们如何最有效地处理异常值呢


我对高维数据的直觉是,数据是稀疏的,因此“异常值”的定义更难确定。你们认为我们可以使用对异常值(基于树的模型、鲁棒SVM等)更鲁棒的ML算法,而不是在预处理阶段尝试处理异常值吗?如果我们真的想处理它,最好的方法是什么?

我首先提出一个框架来理解数据。假设您得到一个数据集,但没有解释它是什么。分析实际上可以用来帮助我们理解。通常,行是观察值,列是关于观察值的某种参数。你首先要为你想要实现的目标制定一个框架。现在事情正在发生,所有数据中心都围绕着人们的兴趣……这就是为什么我们决定以某种格式记录它。鉴于此,我们最感兴趣的是:

1)对象 2)对象的属性 3)对象的行为 4.)对象的首选项 4.)对象随时间变化的行为和偏好 5.)对象与其他对象的关系 6.)属性、行为、偏好和其他对象对对象的影响

因此,您希望识别这些项目。所以你打开一个数据集,也许你马上就能识别出一个时间戳。然后,您将看到一些分类变量,并开始进行一对一、一对多、多对多的关系分析。然后识别连续变量。这些都聚集在一起,为识别离群点提供了基础。 如果我们在评估一段时间内发生的事件,那么这一罕见事件是否表明了一些很少发生但我们想知道的事情。森林火灾是离群事件…但它们是非常令人关注的事件。如果我正在分析机器数据,并且发生罕见事件,但这些罕见事件与机器故障有关,那么这很重要。基本上……稀有事件参数是否显示了它与您关心的某些事情相关的证据

现在,如果您的维度太多,以致于上述方法对您的判断不可行,那么您正在寻求维度缩减替代方案。我目前正在使用单值分解作为at技术。我已经看到,我用25%的数据实现了相同水平的预测能力。这是我最后的想法;找到一个标记来决定异常值是否重要

首先将它们保留在中,然后开始分析,然后在移除它们的情况下再次运行工作。影响是什么。我相信当你有疑问的时候,两种方法都可以,看看结果有多不同。如果没有什么不同,也许你可以走了。如果存在显著的关注差异,那么您希望对异常值的发生采取基于证据的方法。仅仅因为它在你的数据中是罕见的并不意味着它是罕见的。想一想某些类型的犯罪是少报的(通过逮捕记录)。缺乏数据显示政客因内幕交易被捕并不意味着政客们没有集体进行内幕交易

太宽泛了,再加上不是一个编程问题,因此可以说是离题了;也许适合你。