Java 在mahout谱聚类中,亲和矩阵中的对角元素值应该是多少

Java 在mahout谱聚类中,亲和矩阵中的对角元素值应该是多少,java,hadoop,mapreduce,data-mining,mahout,Java,Hadoop,Mapreduce,Data Mining,Mahout,正如标题所示,这里是光谱聚类的链接 第一步是提取数据点的相似矩阵。当提到相似性矩阵时,我假设相同实体、用户、文档等之间的相似性应该是1,而距离矩阵是0 但在他们的示例中,他们为相同的实体分配了0分: 0,0 1,10 在这里我有点困惑。以前从事光谱聚类工作的人能帮我吗 我有自己的方法来计算相似性分数,所以我不想使用任何内置的mahout函数 提前感谢。我认为我们应该将相似矩阵看作是图论中邻接矩阵的扩展:如果两个节点相邻,则为1;如果两个节点不相邻,则为0。在您的例子中,所有节点都是相邻的,您通过

正如标题所示,这里是光谱聚类的链接

第一步是提取数据点的相似矩阵。当提到相似性矩阵时,我假设相同实体、用户、文档等之间的相似性应该是1,而距离矩阵是0

但在他们的示例中,他们为相同的实体分配了0分:

0,0

1,10

在这里我有点困惑。以前从事光谱聚类工作的人能帮我吗

我有自己的方法来计算相似性分数,所以我不想使用任何内置的mahout函数


提前感谢。

我认为我们应该将相似矩阵看作是图论中邻接矩阵的扩展:如果两个节点相邻,则为1;如果两个节点不相邻,则为0。在您的例子中,所有节点都是相邻的,您通过相似性矩阵来考虑这个邻接矩阵,以编码关于两个观测值有多少是邻接的信息


因为我们不考虑一个节点与自身相邻,除非它自身有一个连接,邻接矩阵的对角线设置为0。我对这个工具不太信任,尤其是它看起来真的很慢。在我能够用更好的工具在单个CPU上击败Mahout运行时之后,我几乎放弃了Mahout。仅仅因为它在Hadoop上运行并不意味着它是好的,或者是快的。但是除此之外,我相信你是正确的,它的值应该是1,或者是内核产生的任何结果。如果人为地将其设置为0,则它不应成为输出的一部分。感谢Anony Moousse。实际测试具有不同种子值的光谱聚类。完成后,更新线程