Apache spark 使用spark中的LSH对数据帧中的每个点运行最近邻查询_Apache Spark_Pyspark_Apache Spark Mllib_Pyspark Sql

Apache spark 使用spark中的LSH对数据帧中的每个点运行最近邻查询

apache-spark pyspark

Apache spark 使用spark中的LSH对数据帧中的每个点运行最近邻查询,apache-spark,pyspark,apache-spark-mllib,pyspark-sql,Apache Spark,Pyspark,Apache Spark Mllib,Pyspark Sql,我需要数据帧中每个特征向量的k个最近邻。我用的是pyspark的BucketedrandomprojectionsModel 用于创建模型的代码 brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n) model = brp.fit(data_df) df_lsh = model.transform(data_df) 现在，如何为数据中的每个点运

我需要数据帧中每个特征向量的k个最近邻。我用的是pyspark的BucketedrandomprojectionsModel

用于创建模型的代码

brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)

model = brp.fit(data_df)
df_lsh = model.transform(data_df)

现在，如何为数据中的每个点运行近似最近邻查询

我试过播放这个模型，但出现了pickle错误。

此外，定义udf以访问模型会导致错误

方法uuu getstate_uuu（[]）不存在

使用时应使用

。approxSimilarityJoin

model.df_lsh(df_lsh, df_lsh)