Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/298.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
python pyspark运行approxSimilarityJoin需要更长的时间_Python_Pyspark_Lsh - Fatal编程技术网

python pyspark运行approxSimilarityJoin需要更长的时间

python pyspark运行approxSimilarityJoin需要更长的时间,python,pyspark,lsh,Python,Pyspark,Lsh,我正在使用pyspark-python执行MinHashLSH以查找数据帧的模糊匹配。但是,当我运行approxSimilarityJoin时,执行代码需要很长时间 我为解决此问题所做的工作: 我的数据非常小,大约800KB(仅40K行) 我已经设置了一个阈值来提高性能 我增加了虚拟机上的CPU数量 我已经将broadcastTimeout增加到config(“spark.sql.broadcastTimeout”,“36000”) 然而,同样的问题也发生了。我应该如何解决此问题 代码: 配

我正在使用pyspark-python执行MinHashLSH以查找数据帧的模糊匹配。但是,当我运行approxSimilarityJoin时,执行代码需要很长时间

我为解决此问题所做的工作:

  • 我的数据非常小,大约800KB(仅40K行)
  • 我已经设置了一个阈值来提高性能
  • 我增加了虚拟机上的CPU数量
  • 我已经将broadcastTimeout增加到config(“spark.sql.broadcastTimeout”,“36000”)
然而,同样的问题也发生了。我应该如何解决此问题

代码:

配置:

spark = (SparkSession
        .builder
        .master('local')
        .appName('LSH-Cosine')
        .config("spark.sql.broadcastTimeout", "36000")
        .config("spark.sql.shuffle.partitions" ,"300")
        .getOrCreate())
spark = (SparkSession
        .builder
        .master('local')
        .appName('LSH-Cosine')
        .config("spark.sql.broadcastTimeout", "36000")
        .config("spark.sql.shuffle.partitions" ,"300")
        .getOrCreate())