Python 在分布中找到一组值的概率

Python 在分布中找到一组值的概率,python,scipy,probability,frequency-distribution,Python,Scipy,Probability,Frequency Distribution,我有两个分布(值集),希望知道一个分布“适合”另一个分布的概率。大概是这样的: dist = [355, 221, 302, ...] values = [550, 537, 404, ...] odds = odds_all_values_in_dist(dist,values) 我什么都没试过(因为我对概率论不太了解),而且我几乎没用过scipy。此外,我不知道什么样的分布可能是合适的,数据点是“每天点击的次数”(排序) 编辑:dist是上个月的点击次数/天,值是当月的点击次数/天。希望这

我有两个分布(值集),希望知道一个分布“适合”另一个分布的概率。大概是这样的:

dist = [355, 221, 302, ...]
values = [550, 537, 404, ...]
odds = odds_all_values_in_dist(dist,values)
我什么都没试过(因为我对概率论不太了解),而且我几乎没用过scipy。此外,我不知道什么样的分布可能是合适的,数据点是“每天点击的次数”(排序)

编辑:
dist
是上个月的点击次数/天,
是当月的点击次数/天。希望这有助于澄清尽管我缺乏概率论和数学方面的知识,但我正在努力实现的目标。:)


编辑2:本月点击量增加了50%。考虑到上个月和本月每天的点击量,这一增长是偶然造成的可能性有多大?

我发现这一点很不清楚。你所说的“一套“适合”另一套的概率”是什么意思?集合A要么是集合B的子集,要么不是集合B的子集,根本没有概率问题(除非集合是随机生成的——但是,如果是,你还没有解释如何生成的),所以通过“适合”你似乎不是指“是集合B的子集”,但是,你的意思是什么?@johncleman:我在编辑中试图澄清,这有帮助吗?请编辑,如果你能更好地解释它!它帮助了一些人,但仍然让事情变得模糊不清。你需要有一个概率模型来描述每天点击量的分布,这样你的问题才有意义。一旦你得出了每天点击的概率分布,那么询问一个给定大小的随机生成样本是否是另一个大小的随机生成样本的子集是有意义的。事实上,您所写的任何东西都没有给出点击是如何分布的任何指示。这里只是猜测——但是泊松分布可能会起作用(使用拟合优度测试来确认)。如果您想测试这两个样本是否来自同一个分布,则使用。这是在Scipy下。但是在盲目使用代码之前,请确保您理解测试!jakevdp的评论提出了一个重要的问题——你是否对一个月内每天的点击量在上个月出现的概率感兴趣,或者你是否对一个月内每天的点击量是否与上个月每天的点击量具有相同的总体分布感兴趣?我发现这相当有趣不清楚的。你所说的“一套“适合”另一套的概率”是什么意思?集合A要么是集合B的子集,要么不是集合B的子集,根本没有概率问题(除非集合是随机生成的——但是,如果是,你还没有解释如何生成的),所以通过“适合”你似乎不是指“是集合B的子集”,但是,你的意思是什么?@johncleman:我在编辑中试图澄清,这有帮助吗?请编辑,如果你能更好地解释它!它帮助了一些人,但仍然让事情变得模糊不清。你需要有一个概率模型来描述每天点击量的分布,这样你的问题才有意义。一旦你得出了每天点击的概率分布,那么询问一个给定大小的随机生成样本是否是另一个大小的随机生成样本的子集是有意义的。事实上,您所写的任何东西都没有给出点击是如何分布的任何指示。这里只是猜测——但是泊松分布可能会起作用(使用拟合优度测试来确认)。如果您想测试这两个样本是否来自同一个分布,则使用。这是在Scipy下。但是在盲目使用代码之前,请确保您理解测试!jakevdp的评论提出了一个重要的问题——您是否对一个月内每天的点击量在上个月出现的概率感兴趣,或者您是否对一个月内每天的点击量是否与上个月每天的点击量具有相同的总体分布感兴趣?