Python 我需要找到数据的分布,这些数据来自零售连锁网络。没有符合数据的分布

Python 我需要找到数据的分布,这些数据来自零售连锁网络。没有符合数据的分布,python,r,distribution,frequency-distribution,goodness-of-fit,Python,R,Distribution,Frequency Distribution,Goodness Of Fit,我需要找到数据的分布,这些数据来自零售连锁网络(所有商店的产品需求)。我尝试使用EasyFit来拟合分布(它有82个分布来检查最佳分布),但没有一个分布适合数据。可以做些什么?有没有办法确定数据分布是多重分布的和还是卷积?我已经从数据集中删除了峰值、季节性或促销数据,但仍然没有分布拟合。这取决于您所说的“没有分布拟合数据”是什么意思。通过对分布进行排序(使用Kolmogorov-Smirnov、Anderson-Darling、卡方检验或其他检验统计数据),可以获得最佳拟合。你不会得到一个完美的

我需要找到数据的分布,这些数据来自零售连锁网络(所有商店的产品需求)。我尝试使用EasyFit来拟合分布(它有82个分布来检查最佳分布),但没有一个分布适合数据。可以做些什么?有没有办法确定数据分布是多重分布的和还是卷积?我已经从数据集中删除了峰值、季节性或促销数据,但仍然没有分布拟合。

这取决于您所说的“没有分布拟合数据”是什么意思。通过对分布进行排序(使用Kolmogorov-Smirnov、Anderson-Darling、卡方检验或其他检验统计数据),可以获得最佳拟合。你不会得到一个完美的拟合,因为分布是理论上的,你使用最佳拟合,或者根本不使用它。发布一些数据和最适合的测试统计数据,或详细说明问题。有时,您只需要接受数据要么构造得很糟糕,要么在分析数据时毫无意义


如果这个问题纯粹是统计性质的,你最好把它发布在网站上

您是否尝试过转换数据?模拟多个变换,并对适合进行统计推断的分布进行最佳近似

请参阅stats.stackexchange.com上的线程以了解一些有用的讨论:实际上,没有任何理由认为真实数据遵循某种方便的参数分布。就像那条线说的那样,即使是这样,也无法证明。你能做的最好的事情就是拟合一些分布,并根据分布之间的距离度量选择一个,例如KL散度。一旦你分离出一些趋势,你可以尝试拟合一些混合分布,也许这会更好地描述你的基础数据集?此外,我不确定删除不符合您假设的数据集是否是一个好主意@Luca如何拟合混合分布(如果您正在谈论一些分布)。我已经去除了季节性(促销)效应。所谓“没有分布符合数据”,我的意思是所有的测试,如KS、AD和卡方检验统计都失败或拒绝分布。我使用的工具是EasyFit,它有大约82个分布。如果真的有必要,可以手动拟合它周围的多项式,但是如果使用80个流行分布无法找到合理的拟合,那么,在全似然法中,曲线拟合不是你应该做的事情。我正在寻找方法,使我能够拟合多个分布,比如两个分布之和。如果可能的话,请告诉我还有什么事@ajspI不知道你的意思,你应该仔细考虑一下,当你知道你需要什么时再回到问题上来。你能详细说明一下你所说的转换数据是什么意思吗?该数据是每个产品的每日级存储需求数据。我需要找到能代表需求的分布@alexreadSo,您可以尝试变换阶梯,如对数、平方、逆等。Stata和R都有相应的包。例如,收入数据大部分是倾斜的,可以通过对数变换转换为正态分布。数据不倾斜,但形状不是平滑递减的。尾部有起伏(bcoz被anderson-darling测试拒绝)。您可以在以下链接中看到数据。Manu9-我对数据的粗略观察是,你得到的是泊松分布。将每次发生的频率制成表格——0、1、2、3等,按商店、季节等列出所有需求。有多种方法来处理这些数据,最明智的是将商店视为个人的起点。我无法实际签出数据,因为它处于受保护的视图中。这也是为什么最好从一开始就提供数据摘录和问题。数据看起来像泊松分布,但拟合优度测试失败。我需要找到这个需求数据的分布,以便在我的模拟模型中生成需求。我正试图找到一个适合这些数据的分布。我已经改变了谷歌工作表的设置,你可以编辑它。