Cluster computing 标称数据相似性相关系数的最佳计算方法

Cluster computing 标称数据相似性相关系数的最佳计算方法,cluster-computing,cluster-analysis,similarity,cosine-similarity,Cluster Computing,Cluster Analysis,Similarity,Cosine Similarity,我希望有人能在这方面帮助我,请: 我想做一些文章特征之间的相似性,作者,类别,年份,影响因素,引用 我不知道如何处理标称数据,对于数字特征,我可以处理余弦相似性,但如何处理标称数据? 提前感谢大家 虽然我不想推荐这种方法,但它似乎非常流行: 将类别编码为二进制属性。i、 e: A1=Car -> (1,0,0) A1=Truck -> (0,1,0) A1=Bike -> (0,0,1) 然后,您可以继续使用文本。这实际上等同于将它们视为三个不同的词 这是可行的,

我希望有人能在这方面帮助我,请: 我想做一些文章特征之间的相似性,作者,类别,年份,影响因素,引用 我不知道如何处理标称数据,对于数字特征,我可以处理余弦相似性,但如何处理标称数据?
提前感谢大家

虽然我不想推荐这种方法,但它似乎非常流行:

将类别编码为二进制属性。i、 e:

A1=Car   ->  (1,0,0)
A1=Truck ->  (0,1,0)
A1=Bike  ->  (0,0,1)
然后,您可以继续使用文本。这实际上等同于将它们视为三个不同的词

这是可行的,但在我看来,除了连续的数值外,根本没有相关性的概念。已经在文本中,它更多的是一个黑客制作的东西,而不是一个好的方法