python pyspark运行approxSimilarityJoin需要更长的时间
我正在使用pyspark-python执行MinHashLSH以查找数据帧的模糊匹配。但是,当我运行approxSimilarityJoin时,执行代码需要很长时间 我为解决此问题所做的工作:python pyspark运行approxSimilarityJoin需要更长的时间,python,pyspark,lsh,Python,Pyspark,Lsh,我正在使用pyspark-python执行MinHashLSH以查找数据帧的模糊匹配。但是,当我运行approxSimilarityJoin时,执行代码需要很长时间 我为解决此问题所做的工作: 我的数据非常小,大约800KB(仅40K行) 我已经设置了一个阈值来提高性能 我增加了虚拟机上的CPU数量 我已经将broadcastTimeout增加到config(“spark.sql.broadcastTimeout”,“36000”) 然而,同样的问题也发生了。我应该如何解决此问题 代码: 配
- 我的数据非常小,大约800KB(仅40K行)
- 我已经设置了一个阈值来提高性能
- 我增加了虚拟机上的CPU数量
- 我已经将broadcastTimeout增加到config(“spark.sql.broadcastTimeout”,“36000”)
spark = (SparkSession
.builder
.master('local')
.appName('LSH-Cosine')
.config("spark.sql.broadcastTimeout", "36000")
.config("spark.sql.shuffle.partitions" ,"300")
.getOrCreate())
spark = (SparkSession
.builder
.master('local')
.appName('LSH-Cosine')
.config("spark.sql.broadcastTimeout", "36000")
.config("spark.sql.shuffle.partitions" ,"300")
.getOrCreate())