Java 统计数据分析中的散乱数据集

Java 统计数据分析中的散乱数据集,java,statistics,mean,scatter,Java,Statistics,Mean,Scatter,我有一些统计数据。一些数据非常分散到大多数数据集中,如下所示。我想做的是最小化数据集中高度分散的数据的影响。我想计算数据集的平均值,在我的例子中,它最小化了散乱数据的影响 My data set is as like this: 10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42. 如下图所示: 我需要的平均值不是46.3,而是更接近其他数据分布。 实际上,我想最小化平均值计算中89.23和328.42的影响。 提

我有一些统计数据。一些数据非常分散到大多数数据集中,如下所示。我想做的是最小化数据集中高度分散的数据的影响。我想计算数据集的平均值,在我的例子中,它最小化了散乱数据的影响

My data set is as like this:
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42.
如下图所示:

我需要的平均值不是46.3,而是更接近其他数据分布。 实际上,我想最小化平均值计算中89.23和328.42的影响。
提前谢谢

你可能会注意到你真的不想要平均值。这里的问题是,您假设的数据分布与实际数据不同。如果你试图用正态分布来拟合这些数据,你会得到不好的结果。你可以尝试用柯西分布这样的重尾分布来拟合这个数据。如果要使用正态分布,则需要过滤掉非正态样本。如果你觉得你知道标准偏差应该是什么,你可以从上面的样本中去掉所有的东西,比如说3个标准偏差偏离平均值(数字3必须取决于样本大小)。这个过程可以递归地删除非正态样本,直到您对标准偏差方面的异常值大小感到满意。

您可能会注意到您确实不想要平均值。这里的问题是,您假设的数据分布与实际数据不同。如果你试图用正态分布来拟合这些数据,你会得到不好的结果。你可以尝试用柯西分布这样的重尾分布来拟合这个数据。如果要使用正态分布,则需要过滤掉非正态样本。如果你觉得你知道标准偏差应该是什么,你可以从上面的样本中去掉所有的东西,比如说3个标准偏差偏离平均值(数字3必须取决于样本大小)。这个过程可以递归地删除非正态样本,直到您满意标准偏差方面的异常值大小。

不幸的是,一组数据的平均值只是平均值。您确定该点实际上是一个异常值吗?您的数据包含与聚类相关的单个异常值,但如果您查看绘图,您会发现这些数据似乎具有线性关系,因此它是否真的是异常值

如果这个阅读真的给你带来了问题,你可以完全删除它。除此之外,我唯一能建议你们的是计算某种加权平均值,而不是真正的平均值。这样,在计算平均值时,可以为该点指定较低的权重(尽管如何选择权重值是另一回事)。这类似于加权回归,其中特定数据点与回归拟合相关的权重较小(例如,可能是由于某些点的不可靠性)


希望这能对你有所帮助,或者至少能给你一些指引,让你找到其他可以尝试的途径。

不幸的是,一组数据的平均值就是——平均值。您确定该点实际上是一个异常值吗?您的数据包含与聚类相关的单个异常值,但如果您查看绘图,您会发现这些数据似乎具有线性关系,因此它是否真的是异常值

如果这个阅读真的给你带来了问题,你可以完全删除它。除此之外,我唯一能建议你们的是计算某种加权平均值,而不是真正的平均值。这样,在计算平均值时,可以为该点指定较低的权重(尽管如何选择权重值是另一回事)。这类似于加权回归,其中特定数据点与回归拟合相关的权重较小(例如,可能是由于某些点的不可靠性)


希望这能对你有所帮助,或者至少能给你一些指引,让你找到其他可以尝试的途径。

试试在或处问这个问题。目前你的问题与编程没有太大关系,你可能会在那些已经搜索过很多次的网站上得到更快的回复。但找不到合适的解决方案。我在项目部工作,统计数据分析。这是我最近几个月以来面临的问题。无论如何,感谢@Mathematicsian1975特别是@Mathematicsian1975提到的编程问题。但我认为这似乎也是一个关于数学、统计和编程方面的好概念性问题。希望一些极客能给出非常明智的答案。:)试着在或处问这个问题。目前你的问题与编程没有太大关系,你可能会在那些已经搜索过很多次的网站上得到更快的回复。但找不到合适的解决方案。我在项目部工作,统计数据分析。这是我最近几个月以来面临的问题。无论如何,感谢@Mathematicsian1975特别是@Mathematicsian1975提到的编程问题。但我认为这似乎也是一个关于数学、统计和编程方面的好概念性问题。希望一些极客能给出非常明智的答案。:)我无法过滤掉这些数据,这是这里的主要问题。因为在将来,当前的异常值可能不是异常值,因为每个样本数据都被推送到总体中。无论如何,谢谢你的回复。假设你的问题是从流数据的正常模型中删除异常值。您可以在获得重要的统计样本后开始筛选。。。说100分。。。称之为核心样本。在得到100分后,在核心上执行上述步骤。然后监视更多数据点,并用新点更新核心。防止不适合核心的新数据