Pandas 使用无监督机器学习对数据库表进行分类?

Pandas 使用无监督机器学习对数据库表进行分类?,pandas,machine-learning,neural-network,deep-learning,unsupervised-learning,Pandas,Machine Learning,Neural Network,Deep Learning,Unsupervised Learning,对于ML,我有一个独特的用例——我需要对数据库表进行分类​. 它们包含字母数字的元数据。我知道有些表与其他表相似,但我不知道存在多少组 是否有一种方法可以将这些数据提供给集群分类器,并找出我的表池中存在多少可能的组 提前感谢您的回复 这不是您问题的答案,但可以让您初步了解什么是可能的,以及一旦我找到了解决此群集问题的好方法,我将如何处理此问题 假设我们发现欧几里德度量非常适合,那么我们可以做以下事情(我在这里使用随机数,只是为了说明) 输出: num_clusters: 2 0.24318056

对于ML,我有一个独特的用例——我需要对数据库表进行分类​. 它们包含字母数字的元数据。我知道有些表与其他表相似,但我不知道存在多少组

是否有一种方法可以将这些数据提供给集群分类器,并找出我的表池中存在多少可能的组


提前感谢您的回复

这不是您问题的答案,但可以让您初步了解什么是可能的,以及一旦我找到了解决此群集问题的好方法,我将如何处理此问题

假设我们发现欧几里德度量非常适合,那么我们可以做以下事情(我在这里使用随机数,只是为了说明)

输出:

num_clusters: 2 0.24318056918852374
num_clusters: 3 0.21859606573283147
num_clusters: 4 0.2320853440044738
num_clusters: 5 0.21159893083770434
num_clusters: 6 0.2436021768392968
num_clusters: 7 0.2798416731321928
num_clusters: 8 0.31839456337186695
num_clusters: 9 0.27654631385700396
该轮廓对给定度量的簇之间的匹配程度以及簇之间的重叠程度进行评分。满分为1,最差为0。因此,在这种特殊情况下,8个集群将适合这个问题


但是请记住,您需要根据您的问题选择适当的算法,因此您需要有一个表相似和表完全不同的标准

嗯,这取决于你使用的标准。你能感觉到哪些表比其他表更相似吗?你能以某种方式量化吗?Scikit learn提供了无监督学习的方法。如果你需要帮助找出哪一个最适合你的数据,你会得到更好的答案。另一方面,提供一个小样本的数据,你已经尝试过的,以及你预期的结果,将非常有帮助
num_clusters: 2 0.24318056918852374
num_clusters: 3 0.21859606573283147
num_clusters: 4 0.2320853440044738
num_clusters: 5 0.21159893083770434
num_clusters: 6 0.2436021768392968
num_clusters: 7 0.2798416731321928
num_clusters: 8 0.31839456337186695
num_clusters: 9 0.27654631385700396