Apache spark pyspark中使用tfidf向量的所有对相似性
我试图根据spark中的文本找到类似的文档。我正在使用python和Spark 到目前为止,我实现了RowMatrix、IndexedRowMatrix和CoordinateMatrix来设置它。然后,我实现了一个类似性(DIMSUM)。DIMSUM的问题是,它针对许多功能进行了优化,只针对一些项目 我们最初的方法是创建所有文档中所有单词的tf idf向量,然后将其转换为行矩阵,其中每个单词有一行,每个项目有一列。然后我们运行了ColumnComparison,它给出了((item_i,item_j),相似度的坐标矩阵。当列数>行数时,这种方法就不能很好地工作Apache spark pyspark中使用tfidf向量的所有对相似性,apache-spark,machine-learning,pyspark,apache-spark-mllib,tf-idf,Apache Spark,Machine Learning,Pyspark,Apache Spark Mllib,Tf Idf,我试图根据spark中的文本找到类似的文档。我正在使用python和Spark 到目前为止,我实现了RowMatrix、IndexedRowMatrix和CoordinateMatrix来设置它。然后,我实现了一个类似性(DIMSUM)。DIMSUM的问题是,它针对许多功能进行了优化,只针对一些项目 我们最初的方法是创建所有文档中所有单词的tf idf向量,然后将其转换为行矩阵,其中每个单词有一行,每个项目有一列。然后我们运行了ColumnComparison,它给出了((item_i,item
我们需要一种方法来计算所有具有大量项目、少量特征的配对相似度#项目=10^7#特征=10^4。在更高的层次上,我们正在尝试创建一个基于项目的推荐程序,该推荐程序在给定一个项目时,将仅基于文本返回一些高质量的推荐。我会将此作为一个注释来写,而不是作为一个答案,但我现在还不想通知您 这将通过利用ElasticSearch的解决方案“简单”地解决。从文档中,您可以看到它是如何工作的以及考虑了哪些因素,这些信息应该是有用的,即使您最终在Python中实现了这一点
他们还实现了其他有趣的算法,例如。我们目前的解决方法与ES中的完全相同。使用MLT查找与其他文档相似的文档,或与给定文本相似的文档等。我们有几种类型的特征向量,我们希望对其进行相似性分析。不过,文本是在此处发布的最简单示例。