Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark pyspark中使用tfidf向量的所有对相似性_Apache Spark_Machine Learning_Pyspark_Apache Spark Mllib_Tf Idf - Fatal编程技术网

Apache spark pyspark中使用tfidf向量的所有对相似性

Apache spark pyspark中使用tfidf向量的所有对相似性,apache-spark,machine-learning,pyspark,apache-spark-mllib,tf-idf,Apache Spark,Machine Learning,Pyspark,Apache Spark Mllib,Tf Idf,我试图根据spark中的文本找到类似的文档。我正在使用python和Spark 到目前为止,我实现了RowMatrix、IndexedRowMatrix和CoordinateMatrix来设置它。然后,我实现了一个类似性(DIMSUM)。DIMSUM的问题是,它针对许多功能进行了优化,只针对一些项目 我们最初的方法是创建所有文档中所有单词的tf idf向量,然后将其转换为行矩阵,其中每个单词有一行,每个项目有一列。然后我们运行了ColumnComparison,它给出了((item_i,item

我试图根据spark中的文本找到类似的文档。我正在使用python和Spark

到目前为止,我实现了RowMatrix、IndexedRowMatrix和CoordinateMatrix来设置它。然后,我实现了一个类似性(DIMSUM)。DIMSUM的问题是,它针对许多功能进行了优化,只针对一些项目

我们最初的方法是创建所有文档中所有单词的tf idf向量,然后将其转换为行矩阵,其中每个单词有一行,每个项目有一列。然后我们运行了ColumnComparison,它给出了((item_i,item_j),相似度的坐标矩阵。当列数>行数时,这种方法就不能很好地工作


我们需要一种方法来计算所有具有大量项目、少量特征的配对相似度#项目=10^7#特征=10^4。在更高的层次上,我们正在尝试创建一个基于项目的推荐程序,该推荐程序在给定一个项目时,将仅基于文本返回一些高质量的推荐。

我会将此作为一个注释来写,而不是作为一个答案,但我现在还不想通知您

这将通过利用ElasticSearch的解决方案“简单”地解决。从文档中,您可以看到它是如何工作的以及考虑了哪些因素,这些信息应该是有用的,即使您最终在Python中实现了这一点


他们还实现了其他有趣的算法,例如。

我们目前的解决方法与ES中的完全相同。使用MLT查找与其他文档相似的文档,或与给定文本相似的文档等。我们有几种类型的特征向量,我们希望对其进行相似性分析。不过,文本是在此处发布的最简单示例。