Cluster computing 标称数据相似性相关系数的最佳计算方法_Cluster Computing_Cluster Analysis_Similarity_Cosine Similarity

Cluster computing 标称数据相似性相关系数的最佳计算方法

cluster-computing

Cluster computing 标称数据相似性相关系数的最佳计算方法,cluster-computing,cluster-analysis,similarity,cosine-similarity,Cluster Computing,Cluster Analysis,Similarity,Cosine Similarity,我希望有人能在这方面帮助我，请：我想做一些文章特征之间的相似性，作者，类别，年份，影响因素，引用我不知道如何处理标称数据，对于数字特征，我可以处理余弦相似性，但如何处理标称数据？提前感谢大家虽然我不想推荐这种方法，但它似乎非常流行：将类别编码为二进制属性。i、 e: A1=Car -> (1,0,0) A1=Truck -> (0,1,0) A1=Bike -> (0,0,1) 然后，您可以继续使用文本。这实际上等同于将它们视为三个不同的词这是可行的，

我希望有人能在这方面帮助我，请：我想做一些文章特征之间的相似性，作者，类别，年份，影响因素，引用我不知道如何处理标称数据，对于数字特征，我可以处理余弦相似性，但如何处理标称数据？

提前感谢大家

虽然我不想推荐这种方法，但它似乎非常流行：

将类别编码为二进制属性。i、 e:

A1=Car   ->  (1,0,0)
A1=Truck ->  (0,1,0)
A1=Bike  ->  (0,0,1)

然后，您可以继续使用文本。这实际上等同于将它们视为三个不同的词

这是可行的，但在我看来，除了连续的数值外，根本没有相关性的概念。已经在文本中，它更多的是一个黑客制作的东西，而不是一个好的方法