Algorithm 按分数和相对频率对项目进行排名_Algorithm_Ranking

Algorithm 按分数和相对频率对项目进行排名

algorithm

Algorithm 按分数和相对频率对项目进行排名,algorithm,ranking,Algorithm,Ranking,我想通过比较篮子1中的频率与另一个篮子2中的频率的比率来对项目类型进行排名例如，如果项目类型A在篮子1中有大约5个计数，在篮子2中有0个计数，那么这应该比类型B排名更高，比如说在篮子1中有10个项目，在篮子2中有10个项目。我使用优势比abslogfreq in basket1/freq in basket2，但是这并没有捕获我应该将abslog10/100作为abslog1/10进行优先排序的事实我在考虑是否将这个结果乘以总计数，例如10+100abslog10/100，但是这个数字似乎再

我想通过比较篮子1中的频率与另一个篮子2中的频率的比率来对项目类型进行排名

例如，如果项目类型A在篮子1中有大约5个计数，在篮子2中有0个计数，那么这应该比类型B排名更高，比如说在篮子1中有10个项目，在篮子2中有10个项目。我使用优势比abslogfreq in basket1/freq in basket2，但是这并没有捕获我应该将abslog10/100作为abslog1/10进行优先排序的事实

我在考虑是否将这个结果乘以总计数，例如10+100abslog10/100，但是这个数字似乎再次超过了记录值

衡量对数值的一个好建议是什么？

这些类型任务的标准方法是将物品建模为产生篮子的有偏硬币，B1的概率为p，B2的概率为1-p。直观地说，这意味着一个项目类型有一个潜在的篮子真实比率，它在篮子之间产生一个特定的项目分割。因此，90%的a可能会产生[9,1]，但也可能产生[10,0]甚至[0,10]，尽管这一结果的概率非常低

然后，您可以查看[5,0]和[10,1]这样的样本，计算参数p的置信区间，然后根据区间的下限对项目类型进行排序。这样[10,2]将在[5,1]之上排序。尽管两个样本中的比例相同，[10,2]的置信区间会更窄，因此其下限会更高

这个想法和一些更详细的公式描述在：

频率之间的差异会给我一些价值。对这些值进行排序应该可以解决您的问题，对吗？排序后的列表将为您提供排名。@pala，不完全是。假设我有[1,2]，[100101]，但它们的意思并不完全相同。在你的问题中，typeA的排名高于typeB。怎么样？[1,2]和[100101]之间的区别是什么？