Algorithm 最佳铲斗尺寸和铲斗数量_Algorithm_Data Structures_Dataset_Statistics_Bucket

Algorithm 最佳铲斗尺寸和铲斗数量

algorithm data-structures statistics

Algorithm 最佳铲斗尺寸和铲斗数量,algorithm,data-structures,dataset,statistics,bucket,Algorithm,Data Structures,Dataset,Statistics,Bucket,抱歉，这篇文章与编码无关，更多的是关于数据结构和算法。我有大量的数据，每个数据都有不同的频率。近似图形图似乎是一条钟形曲线。现在我想显示范围内的数据，它最精确地描述了范围的频率。 e、 g.整个数据范围具有总频率数，但该范围或存储桶大小不精确，可能会变得更精确。（例如，如果某些数据更集中于某个特定的频率区域，我们可能会建立一个数据大小较小但频率关系更密切的存储桶。）任何关于算法的帮助。我想到了一个与二进制搜索相关的算法。各位，有什么想法吗。我不确定我是否在关注，但您似乎在寻找kbean，

抱歉，这篇文章与编码无关，更多的是关于数据结构和算法。我有大量的数据，每个数据都有不同的频率。近似图形图似乎是一条钟形曲线。现在我想显示范围内的数据，它最精确地描述了范围的频率。 e、 g.整个数据范围具有总频率数，但该范围或存储桶大小不精确，可能会变得更精确。（例如，如果某些数据更集中于某个特定的频率区域，我们可能会建立一个数据大小较小但频率关系更密切的存储桶。）
任何关于算法的帮助。我想到了一个与二进制搜索相关的算法。

各位，有什么想法吗。

我不确定我是否在关注，但您似乎在寻找

bean，其中对于每两个bean，数据落入一个bean的概率与落入另一个bean的概率相同

根据您的描述，您的数据似乎是分布式的，或者

我们可以评估数据的平均值和标准偏差，让提取的标准差为

，平均值为

用于评估样本平均值和S.D.的标准公式为1：

根据这些信息，您可以评估数据的分布，即

N（u，s^2）

。根据这些信息，您可以创建一个随机变量：

X~N（u，s^2）

现在剩下的就是找到a，b，。。。如下所示（假设有10个桶，这显然可以根据您的意愿进行修改）：

P（X）

(二)这个变量的真实分布实际上是t分布，因为方差是未知的，并且是从数据中提取出来的。然而，如果足够大，t分布会衰减为正态分布。
我不确定我是否在跟踪，但你似乎在寻找k
bean，其中每两个bean的概率落在一个bean中的数据与落在另一个bean中的数据相同
根据您的描述，您的数据似乎是分布式的，或者
我们可以评估数据的平均值和标准偏差，让提取的标准差为S
，平均值为u

用于评估样本平均值和S.D.的标准公式为1：
根据这些信息，您可以评估数据的分布，即N（u，s^2）
。根据这些信息，您可以创建一个随机变量：X~N（u，s^2）
2
现在剩下的就是找到a，b，…，如下所示（假设10个桶，这显然可以根据您的意愿进行修改）：
P（X）

(二)这个变量的实际分布实际上是t分布，因为方差是未知的，并且是从数据中提取出来的。然而，对于足够大的n
-t分布衰减为正态分布。
首先计算所有的指数，然后减去重复值，这将为您提供最佳的桶数。但是在较小的情况下级别
首先计算所有索引，然后减去重复值，这将为您提供最佳的存储桶数。但在小级别
感谢您的想法。我现在清楚存储桶大小。这很值得，但我希望最大限度地增加有用的存储桶数。假设两个连续数据集的频率较低，将它们合并在一起会更有用一个数据集具有更高的附加频率。本质上，我试图说桶数是一个动态变量，必须根据数据集及其频率进行选择。必须有一些算法来选择桶数。10个桶（假设）在一种情况下可能看起来不错，但在另一种情况下可能不会。@user1425322:这种方法将为您提供k
数据集，所有这些数据集都需要增加频率。这里的k
是一个您需要预定义的参数。我所拥有的是一个数据集及其频率，看起来像一条正常曲线（如您所说）.但我想要一些存储桶（数量未知），以最佳方式容纳所有数据集。固定存储桶数量会导致在不同数据集的情况下呈现呆滞。对此有什么想法或算法吗？你说“最佳方式”，但最好根据什么标准？这是问题中缺少的关键信息。坦率地说，这很直观。比如，桶的大小在最密集的区域可能很窄，在低频区域可能很宽，但不是很宽。我只想估计一下如何选择不同宽度的不同数量的桶，以便e区域有窄的桶，稀疏区域有宽的桶，一些算法不是一个精确的分析。感谢这个想法。我现在很清楚桶的大小。很值得，但我想最大化有用桶的数量。假设两个连续的数据集具有低频率，将它们合并到一个具有更高加法的数据集中会更有用d频率。本质上，我试图说桶的数量是一个动态变量，必须根据数据集及其频率进行选择。必须有一些算法来选择桶的数量。10个桶（假设）在一种情况下可能看起来不错，但在另一种情况下可能不会。@user1425322:这种方法将为您提供k
数据集，所有这些数据集都需要增加频率。这里的k是一个您需要预定义的参数。我所拥有的是一个数据集及其频率，看起来像一条正常曲线（如您所说）.但我想要一些存储桶（数量未知），以最佳方式容纳所有数据集。固定存储桶数量会导致在不同数据集的情况下呈现呆滞。对此有什么想法或算法吗？你说“最佳方式”，但最好根据什么标准？这是问题中缺少的关键信息。坦率地说，这是直观的。例如，桶大小在最密集的区域可能非常窄，在低频区域可能很宽，但不太宽
u = (x1 + x2 + ... + xn) / n (simple average)
s^2 = Sigma((xi - u)^2)/(n-1)

P(X<a) = 0.1
P(X<b) = 0.2
P(X<c) = 0.3
...