Algorithm 按分数和相对频率对项目进行排名

Algorithm 按分数和相对频率对项目进行排名,algorithm,ranking,Algorithm,Ranking,我想通过比较篮子1中的频率与另一个篮子2中的频率的比率来对项目类型进行排名 例如,如果项目类型A在篮子1中有大约5个计数,在篮子2中有0个计数,那么这应该比类型B排名更高,比如说在篮子1中有10个项目,在篮子2中有10个项目。我使用优势比abslogfreq in basket1/freq in basket2,但是这并没有捕获我应该将abslog10/100作为abslog1/10进行优先排序的事实 我在考虑是否将这个结果乘以总计数,例如10+100abslog10/100,但是这个数字似乎再

我想通过比较篮子1中的频率与另一个篮子2中的频率的比率来对项目类型进行排名

例如,如果项目类型A在篮子1中有大约5个计数,在篮子2中有0个计数,那么这应该比类型B排名更高,比如说在篮子1中有10个项目,在篮子2中有10个项目。我使用优势比abslogfreq in basket1/freq in basket2,但是这并没有捕获我应该将abslog10/100作为abslog1/10进行优先排序的事实

我在考虑是否将这个结果乘以总计数,例如10+100abslog10/100,但是这个数字似乎再次超过了记录值


衡量对数值的一个好建议是什么?

这些类型任务的标准方法是将物品建模为产生篮子的有偏硬币,B1的概率为p,B2的概率为1-p。直观地说,这意味着一个项目类型有一个潜在的篮子真实比率,它在篮子之间产生一个特定的项目分割。因此,90%的a可能会产生[9,1],但也可能产生[10,0]甚至[0,10],尽管这一结果的概率非常低

然后,您可以查看[5,0]和[10,1]这样的样本,计算参数p的置信区间,然后根据区间的下限对项目类型进行排序。这样[10,2]将在[5,1]之上排序。尽管两个样本中的比例相同,[10,2]的置信区间会更窄,因此其下限会更高


这个想法和一些更详细的公式描述在:

频率之间的差异会给我一些价值。对这些值进行排序应该可以解决您的问题,对吗?排序后的列表将为您提供排名。@pala,不完全是。假设我有[1,2],[100101],但它们的意思并不完全相同。在你的问题中,typeA的排名高于typeB。怎么样?[1,2]和[100101]之间的区别是什么?