Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/10.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java:如何以编程方式确定数据集不';你不服从正态分布吗?_Java_Algorithm_Distribution - Fatal编程技术网

Java:如何以编程方式确定数据集不';你不服从正态分布吗?

Java:如何以编程方式确定数据集不';你不服从正态分布吗?,java,algorithm,distribution,Java,Algorithm,Distribution,在Java程序中,如何确定我拥有的数据集是否遵循正态分布 可能吗 我是否可以使用API或算法来确定这一点?我不确定是否有适用于此的API,但您可以使用卡方检验。假设您的数据集足够大,您可以测试是否符合正态分布。这里有两个问题:如何确定是否符合正态分布以及如何确定正态分布。正如第一个链接将向您展示的那样,从正式数据到非正式数据,您希望在多大程度上确定您正在查看的是正常数据。第二个链接显示,没有用于统计分析的标准Java软件包,但有许多其他方法可以实现它们。这是一个有点难的统计问题,如果你不是统计方

在Java程序中,如何确定我拥有的数据集是否遵循正态分布

可能吗


我是否可以使用API或算法来确定这一点?

我不确定是否有适用于此的API,但您可以使用卡方检验。假设您的数据集足够大,您可以测试是否符合正态分布。

这里有两个问题:如何确定是否符合正态分布以及如何确定正态分布。正如第一个链接将向您展示的那样,从正式数据到非正式数据,您希望在多大程度上确定您正在查看的是正常数据。第二个链接显示,没有用于统计分析的标准Java软件包,但有许多其他方法可以实现它们。

这是一个有点难的统计问题,如果你不是统计方面的专家,它看起来似乎很简单。您的目标显然是确定数据是否可能来自任何正态分布,而不是具有预先指定的均值和方差的正态分布。也许最好的方法是使用,这是基于测量分布的and,并将其与正常情况下的预期值进行比较

就Java实现而言,我不知道有什么,尽管我不经常使用Java。如果有,我会有点惊讶,因为它是一个相对模糊的统计函数,Java不是统计中最常用的语言。但是,如果您已经有了计算偏度、峰度和卡方分布CDF的函数,那么,(在此文件中搜索dAgostinoK())可能很容易转换为Java。

最简单的方法是“如果我有n>30个数据点,那么它通过中心极限定理近似正态分布。”;)


正如其他人所提到的,确定数据点是否来自正态分布要困难得多。

这里您深入了解了统计数据,语言根本不重要。您还必须决定要使用什么标准,因为会有错误。您希望如何对有问题的数据集进行分类?您想确保包含几乎所有的正态分布,还是拒绝几乎所有的非正态分布,或者介于两者之间的某个分布?数据集表示正态分布的先验概率是多少?虽然可以使用卡方检验,但我不鼓励这样做。卡方检验最适用于分类/离散数据。我会推荐一个专门为正态分布设计的测试,正如上面msw的链接所描述的。我想你的意思是“如果我有n>30个独立且相同分布的数据点,那么由这些点的总和组成的随机变量近似正态分布”。一组任意的30分可以是任何东西。@dsimcha:+1该死,这比我想象的要难。我将研究这些精细链接。