python pyspark运行approxSimilarityJoin需要更长的时间_Python_Pyspark_Lsh

python pyspark运行approxSimilarityJoin需要更长的时间

python pyspark

python pyspark运行approxSimilarityJoin需要更长的时间,python,pyspark,lsh,Python,Pyspark,Lsh,我正在使用pyspark-python执行MinHashLSH以查找数据帧的模糊匹配。但是，当我运行approxSimilarityJoin时，执行代码需要很长时间我为解决此问题所做的工作：我的数据非常小，大约800KB（仅40K行）我已经设置了一个阈值来提高性能我增加了虚拟机上的CPU数量我已经将broadcastTimeout增加到config（“spark.sql.broadcastTimeout”，“36000”）然而，同样的问题也发生了。我应该如何解决此问题代码：配

我正在使用pyspark-python执行MinHashLSH以查找数据帧的模糊匹配。但是，当我运行approxSimilarityJoin时，执行代码需要很长时间

我为解决此问题所做的工作：

我的数据非常小，大约800KB（仅40K行）
我已经设置了一个阈值来提高性能
我增加了虚拟机上的CPU数量
我已经将broadcastTimeout增加到config（“spark.sql.broadcastTimeout”，“36000”）

然而，同样的问题也发生了。我应该如何解决此问题

代码：

配置：

spark = (SparkSession
        .builder
        .master('local')
        .appName('LSH-Cosine')
        .config("spark.sql.broadcastTimeout", "36000")
        .config("spark.sql.shuffle.partitions" ,"300")
        .getOrCreate())

spark = (SparkSession
        .builder
        .master('local')
        .appName('LSH-Cosine')
        .config("spark.sql.broadcastTimeout", "36000")
        .config("spark.sql.shuffle.partitions" ,"300")
        .getOrCreate())