Cluster computing 从web日志中对类别进行评分

Cluster computing 从web日志中对类别进行评分,cluster-computing,scoring,quantile,Cluster Computing,Scoring,Quantile,我正在建立一个网站上的类别个人得分记分员。 输入:用户ID,类别 输出:用户id、分数类别1、分数类别2等 分数是10分 我的计划是首先为每个用户计算每个类别的点击次数,然后将结果分位数(可能是1000),最后使用聚类算法对每个类别分位数进行聚类,将它们分为10个聚类,然后由谁来排序,并给出速率。 我们的想法是将相近的分位数分组在同一个簇中,得到一个更有趣的分数,而不仅仅是说“10%的最佳点击者得到10分,下一个10%的点击者得到9分等等。” 我的问题如下: 1-你认为这是个好主意吗?有没有更自

我正在建立一个网站上的类别个人得分记分员。
输入:用户ID,类别
输出:用户id、分数类别1、分数类别2等

分数是10分

我的计划是首先为每个用户计算每个类别的点击次数,然后将结果分位数(可能是1000),最后使用聚类算法对每个类别分位数进行聚类,将它们分为10个聚类,然后由谁来排序,并给出速率。
我们的想法是将相近的分位数分组在同一个簇中,得到一个更有趣的分数,而不仅仅是说“10%的最佳点击者得到10分,下一个10%的点击者得到9分等等。”

我的问题如下:
1-你认为这是个好主意吗?有没有更自然、更准确的方法?
2-群集可能太小,我无法保证每个群集上的基数