Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 最佳铲斗尺寸和铲斗数量_Algorithm_Data Structures_Dataset_Statistics_Bucket - Fatal编程技术网

Algorithm 最佳铲斗尺寸和铲斗数量

Algorithm 最佳铲斗尺寸和铲斗数量,algorithm,data-structures,dataset,statistics,bucket,Algorithm,Data Structures,Dataset,Statistics,Bucket,抱歉,这篇文章与编码无关,更多的是关于数据结构和算法。 我有大量的数据,每个数据都有不同的频率。近似图形图似乎是一条钟形曲线。现在我想显示范围内的数据,它最精确地描述了范围的频率。 e、 g.整个数据范围具有总频率数,但该范围或存储桶大小不精确,可能会变得更精确。(例如,如果某些数据更集中于某个特定的频率区域,我们可能会建立一个数据大小较小但频率关系更密切的存储桶。) 任何关于算法的帮助。 我想到了一个与二进制搜索相关的算法。 各位,有什么想法吗。我不确定我是否在关注,但您似乎在寻找kbean,

抱歉,这篇文章与编码无关,更多的是关于数据结构和算法。 我有大量的数据,每个数据都有不同的频率。近似图形图似乎是一条钟形曲线。现在我想显示范围内的数据,它最精确地描述了范围的频率。 e、 g.整个数据范围具有总频率数,但该范围或存储桶大小不精确,可能会变得更精确。(例如,如果某些数据更集中于某个特定的频率区域,我们可能会建立一个数据大小较小但频率关系更密切的存储桶。)
任何关于算法的帮助。 我想到了一个与二进制搜索相关的算法。
各位,有什么想法吗。

我不确定我是否在关注,但您似乎在寻找
k
bean,其中对于每两个bean,数据落入一个bean的概率与落入另一个bean的概率相同

根据您的描述,您的数据似乎是分布式的,或者

我们可以评估数据的平均值和标准偏差,让提取的标准差为
S
,平均值为
u

用于评估样本平均值和S.D.的标准公式为1:

根据这些信息,您可以评估数据的分布,即
N(u,s^2)
。根据这些信息,您可以创建一个随机变量:
X~N(u,s^2)
2

现在剩下的就是找到a,b,。。。如下所示(假设有10个桶,这显然可以根据您的意愿进行修改):

P(X)


(二)这个变量的真实分布实际上是t分布,因为方差是未知的,并且是从数据中提取出来的。然而,如果足够大,t分布会衰减为正态分布。

我不确定我是否在跟踪,但你似乎在寻找
k
bean,其中每两个bean的概率落在一个bean中的数据与落在另一个bean中的数据相同

根据您的描述,您的数据似乎是分布式的,或者

我们可以评估数据的平均值和标准偏差,让提取的标准差为
S
,平均值为
u

用于评估样本平均值和S.D.的标准公式为1:

根据这些信息,您可以评估数据的分布,即
N(u,s^2)
。根据这些信息,您可以创建一个随机变量:
X~N(u,s^2)
2

现在剩下的就是找到a,b,…,如下所示(假设10个桶,这显然可以根据您的意愿进行修改):

P(X)


(二)这个变量的实际分布实际上是t分布,因为方差是未知的,并且是从数据中提取出来的。然而,对于足够大的
n
-t分布衰减为正态分布。

首先计算所有的指数,然后减去重复值,这将为您提供最佳的桶数。但是在较小的情况下级别

首先计算所有索引,然后减去重复值,这将为您提供最佳的存储桶数。但在小级别

感谢您的想法。我现在清楚存储桶大小。这很值得,但我希望最大限度地增加有用的存储桶数。假设两个连续数据集的频率较低,将它们合并在一起会更有用一个数据集具有更高的附加频率。本质上,我试图说桶数是一个动态变量,必须根据数据集及其频率进行选择。必须有一些算法来选择桶数。10个桶(假设)在一种情况下可能看起来不错,但在另一种情况下可能不会。@user1425322:这种方法将为您提供
k
数据集,所有这些数据集都需要增加频率。这里的
k
是一个您需要预定义的参数。我所拥有的是一个数据集及其频率,看起来像一条正常曲线(如您所说).但我想要一些存储桶(数量未知),以最佳方式容纳所有数据集。固定存储桶数量会导致在不同数据集的情况下呈现呆滞。对此有什么想法或算法吗?你说“最佳方式”,但最好根据什么标准?这是问题中缺少的关键信息。坦率地说,这很直观。比如,桶的大小在最密集的区域可能很窄,在低频区域可能很宽,但不是很宽。我只想估计一下如何选择不同宽度的不同数量的桶,以便e区域有窄的桶,稀疏区域有宽的桶,一些算法不是一个精确的分析。感谢这个想法。我现在很清楚桶的大小。很值得,但我想最大化有用桶的数量。假设两个连续的数据集具有低频率,将它们合并到一个具有更高加法的数据集中会更有用d频率。本质上,我试图说桶的数量是一个动态变量,必须根据数据集及其频率进行选择。必须有一些算法来选择桶的数量。10个桶(假设)在一种情况下可能看起来不错,但在另一种情况下可能不会。@user1425322:这种方法将为您提供
k
数据集,所有这些数据集都需要增加频率。这里的
k
是一个您需要预定义的参数。我所拥有的是一个数据集及其频率,看起来像一条正常曲线(如您所说).但我想要一些存储桶(数量未知),以最佳方式容纳所有数据集。固定存储桶数量会导致在不同数据集的情况下呈现呆滞。对此有什么想法或算法吗?你说“最佳方式”,但最好根据什么标准?这是问题中缺少的关键信息。坦率地说,这是直观的。例如,桶大小在最密集的区域可能非常窄,在低频区域可能很宽,但不太宽
u = (x1 + x2 + ... + xn) / n (simple average)
s^2 = Sigma((xi - u)^2)/(n-1)
P(X<a) = 0.1
P(X<b) = 0.2
P(X<c) = 0.3
...