Java 统计数据分析中的散乱数据集_Java_Statistics_Mean_Scatter

Java 统计数据分析中的散乱数据集

java statistics

Java 统计数据分析中的散乱数据集,java,statistics,mean,scatter,Java,Statistics,Mean,Scatter,我有一些统计数据。一些数据非常分散到大多数数据集中，如下所示。我想做的是最小化数据集中高度分散的数据的影响。我想计算数据集的平均值，在我的例子中，它最小化了散乱数据的影响 My data set is as like this: 10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42. 如下图所示：我需要的平均值不是46.3，而是更接近其他数据分布。实际上，我想最小化平均值计算中89.23和328.42的影响。提

我有一些统计数据。一些数据非常分散到大多数数据集中，如下所示。我想做的是最小化数据集中高度分散的数据的影响。我想计算数据集的平均值，在我的例子中，它最小化了散乱数据的影响

My data set is as like this:
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42.

如下图所示：

我需要的平均值不是46.3，而是更接近其他数据分布。实际上，我想最小化平均值计算中89.23和328.42的影响。

提前谢谢

你可能会注意到你真的不想要平均值。这里的问题是，您假设的数据分布与实际数据不同。如果你试图用正态分布来拟合这些数据，你会得到不好的结果。你可以尝试用柯西分布这样的重尾分布来拟合这个数据。如果要使用正态分布，则需要过滤掉非正态样本。如果你觉得你知道标准偏差应该是什么，你可以从上面的样本中去掉所有的东西，比如说3个标准偏差偏离平均值（数字3必须取决于样本大小）。这个过程可以递归地删除非正态样本，直到您对标准偏差方面的异常值大小感到满意。

您可能会注意到您确实不想要平均值。这里的问题是，您假设的数据分布与实际数据不同。如果你试图用正态分布来拟合这些数据，你会得到不好的结果。你可以尝试用柯西分布这样的重尾分布来拟合这个数据。如果要使用正态分布，则需要过滤掉非正态样本。如果你觉得你知道标准偏差应该是什么，你可以从上面的样本中去掉所有的东西，比如说3个标准偏差偏离平均值（数字3必须取决于样本大小）。这个过程可以递归地删除非正态样本，直到您满意标准偏差方面的异常值大小。

不幸的是，一组数据的平均值只是平均值。您确定该点实际上是一个异常值吗？您的数据包含与聚类相关的单个异常值，但如果您查看绘图，您会发现这些数据似乎具有线性关系，因此它是否真的是异常值

如果这个阅读真的给你带来了问题，你可以完全删除它。除此之外，我唯一能建议你们的是计算某种加权平均值，而不是真正的平均值。这样，在计算平均值时，可以为该点指定较低的权重（尽管如何选择权重值是另一回事）。这类似于加权回归，其中特定数据点与回归拟合相关的权重较小（例如，可能是由于某些点的不可靠性）

希望这能对你有所帮助，或者至少能给你一些指引，让你找到其他可以尝试的途径。

不幸的是，一组数据的平均值就是——平均值。您确定该点实际上是一个异常值吗？您的数据包含与聚类相关的单个异常值，但如果您查看绘图，您会发现这些数据似乎具有线性关系，因此它是否真的是异常值

希望这能对你有所帮助，或者至少能给你一些指引，让你找到其他可以尝试的途径。

试试在或处问这个问题。目前你的问题与编程没有太大关系，你可能会在那些已经搜索过很多次的网站上得到更快的回复。但找不到合适的解决方案。我在项目部工作，统计数据分析。这是我最近几个月以来面临的问题。无论如何，感谢@Mathematicsian1975特别是@Mathematicsian1975提到的编程问题。但我认为这似乎也是一个关于数学、统计和编程方面的好概念性问题。希望一些极客能给出非常明智的答案。：）试着在或处问这个问题。目前你的问题与编程没有太大关系，你可能会在那些已经搜索过很多次的网站上得到更快的回复。但找不到合适的解决方案。我在项目部工作，统计数据分析。这是我最近几个月以来面临的问题。无论如何，感谢@Mathematicsian1975特别是@Mathematicsian1975提到的编程问题。但我认为这似乎也是一个关于数学、统计和编程方面的好概念性问题。希望一些极客能给出非常明智的答案。：）我无法过滤掉这些数据，这是这里的主要问题。因为在将来，当前的异常值可能不是异常值，因为每个样本数据都被推送到总体中。无论如何，谢谢你的回复。假设你的问题是从流数据的正常模型中删除异常值。您可以在获得重要的统计样本后开始筛选。。。说100分。。。称之为核心样本。在得到100分后，在核心上执行上述步骤。然后监视更多数据点，并用新点更新核心。防止不适合核心的新数据