Apache spark 使用spark中的LSH对数据帧中的每个点运行最近邻查询

Apache spark 使用spark中的LSH对数据帧中的每个点运行最近邻查询,apache-spark,pyspark,apache-spark-mllib,pyspark-sql,Apache Spark,Pyspark,Apache Spark Mllib,Pyspark Sql,我需要数据帧中每个特征向量的k个最近邻。我用的是pyspark的BucketedrandomprojectionsModel 用于创建模型的代码 brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n) model = brp.fit(data_df) df_lsh = model.transform(data_df) 现在,如何为数据中的每个点运

我需要数据帧中每个特征向量的k个最近邻。我用的是pyspark的BucketedrandomprojectionsModel

用于创建模型的代码

brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)

model = brp.fit(data_df)
df_lsh = model.transform(data_df)
现在,如何为数据中的每个点运行近似最近邻查询

我试过播放这个模型,但出现了pickle错误。
此外,定义udf以访问模型会导致错误
方法uuu getstate_uuu([])不存在

使用时应使用
。approxSimilarityJoin

model.df_lsh(df_lsh, df_lsh)