Statistics 聚类非数值组

Statistics 聚类非数值组,statistics,cluster-analysis,k-means,hierarchical-clustering,Statistics,Cluster Analysis,K Means,Hierarchical Clustering,我正在尝试将我正在使用的数据集的各个部分组合在一起。我有一群人,他们用各种不同的技能工作。这样做的目的是获得最大的代理和技能pct 因此,在一个完美的场景中,最好能得到一个包含85-90%记录的代理样本,以及一组代表85-90%记录的技能。基本上,我希望获得最大百分比的样本,而不需要一小群只使用少数技能的代理,或者只有一小部分代理使用的技能 我试图找到一种更具统计性的方法来做这件事,并考虑了集群。但根据我的理解,集群需要一个距离定义。我不确定这些数据是否符合这一要求 下面是数据的一个小样本:

我正在尝试将我正在使用的数据集的各个部分组合在一起。我有一群人,他们用各种不同的技能工作。这样做的目的是获得最大的代理和技能pct

因此,在一个完美的场景中,最好能得到一个包含85-90%记录的代理样本,以及一组代表85-90%记录的技能。基本上,我希望获得最大百分比的样本,而不需要一小群只使用少数技能的代理,或者只有一小部分代理使用的技能

我试图找到一种更具统计性的方法来做这件事,并考虑了集群。但根据我的理解,集群需要一个距离定义。我不确定这些数据是否符合这一要求

下面是数据的一个小样本:

      Agent          Skill
        1            Claims
        1            Benefits
        2            Claims
        2              -
        3            Other

针对此问题,您使用了错误的工具

您试图做的是设置覆盖问题的变体,而不是聚类

除了你要找的不是一个最小的封面,而是一个近似的上封面

你需要决定什么时候一个解决方案比另一个更好。你对这一点的描述太模糊了——它允许保持一切的琐碎解决方案:100%覆盖

然后反复尝试:

  • 除去代理
  • 取消一项技能
这取决于什么能带来最好的改善


但同样,您需要有一个正式的质量标准。

谢谢您的建议。我去做了一些研究,我想你是对的。有没有一种简单的方法可以在python中构建它?我只是不知道从哪里开始首先解决问题怎么办。那么实际的代码应该很简单。