Algorithm 了解火花余度输出_Algorithm_Scala_Apache Spark_Cosine Similarity

Algorithm 了解火花余度输出

algorithm scala apache-spark

Algorithm 了解火花余度输出,algorithm,scala,apache-spark,cosine-similarity,Algorithm,Scala,Apache Spark,Cosine Similarity,我正在使用spark 1.6余弦相似性（DIMSUM）算法提及：这就是我正在做的输入：数据框中带有ID的50k文档文本处理：将文本标记化使用word2Vec生成的向量生成行矩阵使用阈值法（DIMSUM）输出：得到一个坐标矩阵在打印出这个坐标矩阵的条目时，我得到格式示例：MatrixEntry（133185,0.04106425850610451）我不明白133和185是什么数字。我猜这些是文档ID/序列号，但我不确定。有人能帮忙吗如果这个问题很琐碎，我深表歉

我正在使用spark 1.6余弦相似性（DIMSUM）算法

提及：

这就是我正在做的

输入：数据框中带有ID的50k文档文本

处理：

将文本标记化
使用word2Vec生成的向量
生成行矩阵
使用阈值法（DIMSUM）

输出：

得到一个坐标矩阵
在打印出这个坐标矩阵的条目时，我得到格式示例：MatrixEntry（133185,0.04106425850610451）

我不明白133和185是什么数字。我猜这些是文档ID/序列号，但我不确定。有人能帮忙吗

如果这个问题很琐碎，我深表歉意。

矩阵中心（i，j，value）

表示第i列和第j列之间的相似性

MatrixEntry(133,185,0.04106425850610451)

是第133列和第185列之间的相似项。这些值对应的是术语而不是文档。

您是否能够使用坐标矩阵在文档中找到相似性？能否请您详细说明第133列和第185列包含的内容？如果余弦值接近1，是否意味着这两个文档是相似的？i和j是列吗？您如何知道哪些文档是相似的？