Statistics 聚类非数值组_Statistics_Cluster Analysis_K Means_Hierarchical Clustering

Statistics 聚类非数值组

statistics

Statistics 聚类非数值组,statistics,cluster-analysis,k-means,hierarchical-clustering,Statistics,Cluster Analysis,K Means,Hierarchical Clustering,我正在尝试将我正在使用的数据集的各个部分组合在一起。我有一群人，他们用各种不同的技能工作。这样做的目的是获得最大的代理和技能pct 因此，在一个完美的场景中，最好能得到一个包含85-90%记录的代理样本，以及一组代表85-90%记录的技能。基本上，我希望获得最大百分比的样本，而不需要一小群只使用少数技能的代理，或者只有一小部分代理使用的技能我试图找到一种更具统计性的方法来做这件事，并考虑了集群。但根据我的理解，集群需要一个距离定义。我不确定这些数据是否符合这一要求下面是数据的一个小样本：

我正在尝试将我正在使用的数据集的各个部分组合在一起。我有一群人，他们用各种不同的技能工作。这样做的目的是获得最大的代理和技能pct

因此，在一个完美的场景中，最好能得到一个包含85-90%记录的代理样本，以及一组代表85-90%记录的技能。基本上，我希望获得最大百分比的样本，而不需要一小群只使用少数技能的代理，或者只有一小部分代理使用的技能

我试图找到一种更具统计性的方法来做这件事，并考虑了集群。但根据我的理解，集群需要一个距离定义。我不确定这些数据是否符合这一要求

下面是数据的一个小样本：

      Agent          Skill
        1            Claims
        1            Benefits
        2            Claims
        2              -
        3            Other

针对此问题，您使用了错误的工具

您试图做的是设置覆盖问题的变体，而不是聚类

除了你要找的不是一个最小的封面，而是一个近似的上封面

你需要决定什么时候一个解决方案比另一个更好。你对这一点的描述太模糊了——它允许保持一切的琐碎解决方案：100%覆盖

然后反复尝试：

除去代理
取消一项技能

这取决于什么能带来最好的改善

但同样，您需要有一个正式的质量标准。

谢谢您的建议。我去做了一些研究，我想你是对的。有没有一种简单的方法可以在python中构建它？我只是不知道从哪里开始首先解决问题怎么办。那么实际的代码应该很简单。