Apache spark pyspark中使用tfidf向量的所有对相似性_Apache Spark_Machine Learning_Pyspark_Apache Spark Mllib_Tf Idf

Apache spark pyspark中使用tfidf向量的所有对相似性

apache-spark machine-learning pyspark

Apache spark pyspark中使用tfidf向量的所有对相似性,apache-spark,machine-learning,pyspark,apache-spark-mllib,tf-idf,Apache Spark,Machine Learning,Pyspark,Apache Spark Mllib,Tf Idf,我试图根据spark中的文本找到类似的文档。我正在使用python和Spark 到目前为止，我实现了RowMatrix、IndexedRowMatrix和CoordinateMatrix来设置它。然后，我实现了一个类似性（DIMSUM）。DIMSUM的问题是，它针对许多功能进行了优化，只针对一些项目我们最初的方法是创建所有文档中所有单词的tf idf向量，然后将其转换为行矩阵，其中每个单词有一行，每个项目有一列。然后我们运行了ColumnComparison，它给出了（（item_i，item

我试图根据spark中的文本找到类似的文档。我正在使用python和Spark

到目前为止，我实现了RowMatrix、IndexedRowMatrix和CoordinateMatrix来设置它。然后，我实现了一个类似性（DIMSUM）。DIMSUM的问题是，它针对许多功能进行了优化，只针对一些项目

我们最初的方法是创建所有文档中所有单词的tf idf向量，然后将其转换为行矩阵，其中每个单词有一行，每个项目有一列。然后我们运行了ColumnComparison，它给出了（（item_i，item_j），相似度的坐标矩阵。当列数>行数时，这种方法就不能很好地工作

我们需要一种方法来计算所有具有大量项目、少量特征的配对相似度#项目=10^7#特征=10^4。在更高的层次上，我们正在尝试创建一个基于项目的推荐程序，该推荐程序在给定一个项目时，将仅基于文本返回一些高质量的推荐。

我会将此作为一个注释来写，而不是作为一个答案，但我现在还不想通知您

这将通过利用ElasticSearch的解决方案“简单”地解决。从文档中，您可以看到它是如何工作的以及考虑了哪些因素，这些信息应该是有用的，即使您最终在Python中实现了这一点

他们还实现了其他有趣的算法，例如。

我们目前的解决方法与ES中的完全相同。使用MLT查找与其他文档相似的文档，或与给定文本相似的文档等。我们有几种类型的特征向量，我们希望对其进行相似性分析。不过，文本是在此处发布的最简单示例。