Java 在mahout谱聚类中，亲和矩阵中的对角元素值应该是多少_Java_Hadoop_Mapreduce_Data Mining_Mahout

Java 在mahout谱聚类中，亲和矩阵中的对角元素值应该是多少

java hadoop mapreduce

Java 在mahout谱聚类中，亲和矩阵中的对角元素值应该是多少,java,hadoop,mapreduce,data-mining,mahout,Java,Hadoop,Mapreduce,Data Mining,Mahout,正如标题所示，这里是光谱聚类的链接第一步是提取数据点的相似矩阵。当提到相似性矩阵时，我假设相同实体、用户、文档等之间的相似性应该是1，而距离矩阵是0 但在他们的示例中，他们为相同的实体分配了0分： 0,0 1,10 在这里我有点困惑。以前从事光谱聚类工作的人能帮我吗我有自己的方法来计算相似性分数，所以我不想使用任何内置的mahout函数提前感谢。我认为我们应该将相似矩阵看作是图论中邻接矩阵的扩展：如果两个节点相邻，则为1；如果两个节点不相邻，则为0。在您的例子中，所有节点都是相邻的，您通过

正如标题所示，这里是光谱聚类的链接

第一步是提取数据点的相似矩阵。当提到相似性矩阵时，我假设相同实体、用户、文档等之间的相似性应该是1，而距离矩阵是0

但在他们的示例中，他们为相同的实体分配了0分：

0,0

1,10

在这里我有点困惑。以前从事光谱聚类工作的人能帮我吗

我有自己的方法来计算相似性分数，所以我不想使用任何内置的mahout函数

提前感谢。

我认为我们应该将相似矩阵看作是图论中邻接矩阵的扩展：如果两个节点相邻，则为1；如果两个节点不相邻，则为0。在您的例子中，所有节点都是相邻的，您通过相似性矩阵来考虑这个邻接矩阵，以编码关于两个观测值有多少是邻接的信息

因为我们不考虑一个节点与自身相邻，除非它自身有一个连接，邻接矩阵的对角线设置为0。我对这个工具不太信任，尤其是它看起来真的很慢。在我能够用更好的工具在单个CPU上击败Mahout运行时之后，我几乎放弃了Mahout。仅仅因为它在Hadoop上运行并不意味着它是好的，或者是快的。但是除此之外，我相信你是正确的，它的值应该是1，或者是内核产生的任何结果。如果人为地将其设置为0，则它不应成为输出的一部分。感谢Anony Moousse。实际测试具有不同种子值的光谱聚类。完成后，更新线程