Python 如何对一个类中大部分同时出现的标签(在多标签分类问题中)进行聚类

Python 如何对一个类中大部分同时出现的标签(在多标签分类问题中)进行聚类,python,dataframe,numpy,cluster-analysis,multilabel-classification,Python,Dataframe,Numpy,Cluster Analysis,Multilabel Classification,如何对数据帧中大部分同时出现的标签(在多标签分类问题中)进行聚类?例如,我有一个数据帧: text | genre =========================== text 1 | [action,mistery,horror,thriller] text 2 | [drama,romance] text 3 | [comedy,drama,romance] text 4 | [scifi,mystery,horror,thriller] text 5 |

如何对数据帧中大部分同时出现的标签(在多标签分类问题中)进行聚类?例如,我有一个数据帧:

text     |   genre
===========================
text 1   | [action,mistery,horror,thriller]
text 2   | [drama,romance]
text 3   | [comedy,drama,romance]
text 4   | [scifi,mystery,horror,thriller]
text 5   | [horror,mystery,thriller]

如何对经常出现在一起的标签进行聚类?例如,类型“神秘”、“恐怖”、“惊悚”经常出现在一起(3次),类型“戏剧”、“浪漫”经常出现在一起(2次)。

我想您正在寻找执行频繁模式挖掘,也称为关联规则挖掘。有时人们把它称为关联规则学习,这里有一个维基百科链接,指向这个概念:


频繁模式挖掘领域中的算法通常会根据标签组合在数据中出现的频率对其进行排序。您可以指定模式中标签的最小和最大数量,并选择支持度和置信度阈值。如果没有这些约束,输出将包括标签及其计数、支持度和置信度值的所有可能组合。

我认为您希望执行频繁模式挖掘,也称为关联规则挖掘。有时人们把它称为关联规则学习,这里有一个维基百科链接,指向这个概念:


频繁模式挖掘领域中的算法通常会根据标签组合在数据中出现的频率对其进行排序。您可以指定模式中标签的最小和最大数量,并选择支持度和置信度阈值。如果没有这些约束,输出将包括标签及其计数、支持度和置信值的所有可能组合。

预期输出是什么?它可以是一个单独的列表吗?例如,像一个集群一样,每个集群包含经常一起出现的类型。预期的输出是什么?它可以是一个单独的列表吗?例如,像一个集群,每个集群包含经常同时出现的类型