Algorithm 了解火花余度输出

Algorithm 了解火花余度输出,algorithm,scala,apache-spark,cosine-similarity,Algorithm,Scala,Apache Spark,Cosine Similarity,我正在使用spark 1.6余弦相似性(DIMSUM)算法 提及: 这就是我正在做的 输入: 数据框中带有ID的50k文档文本 处理: 将文本标记化 使用word2Vec生成的向量 生成行矩阵 使用阈值法(DIMSUM) 输出: 得到一个坐标矩阵 在打印出这个坐标矩阵的条目时,我得到 格式示例:MatrixEntry(133185,0.04106425850610451) 我不明白133和185是什么数字。我猜这些是文档ID/序列号,但我不确定。有人能帮忙吗 如果这个问题很琐碎,我深表歉

我正在使用spark 1.6余弦相似性(DIMSUM)算法

提及:

这就是我正在做的

输入: 数据框中带有ID的50k文档文本

处理:

  • 将文本标记化
  • 使用word2Vec生成的向量
  • 生成行矩阵
  • 使用阈值法(DIMSUM)
输出:

  • 得到一个坐标矩阵
  • 在打印出这个坐标矩阵的条目时,我得到 格式示例:MatrixEntry(133185,0.04106425850610451)
我不明白133和185是什么数字。我猜这些是文档ID/序列号,但我不确定。有人能帮忙吗

如果这个问题很琐碎,我深表歉意。

矩阵中心(i,j,value)
表示第i列和第j列之间的相似性

MatrixEntry(133,185,0.04106425850610451)

是第133列和第185列之间的相似项。这些值对应的是术语而不是文档。

您是否能够使用坐标矩阵在文档中找到相似性?能否请您详细说明第133列和第185列包含的内容?如果余弦值接近1,是否意味着这两个文档是相似的?i和j是列吗?您如何知道哪些文档是相似的?