Python Scikit使用ApacheSpark学习KNN（K近邻）并行化_Python_Scala_Apache Spark_Machine Learning_Scikit Learn

Python Scikit使用ApacheSpark学习KNN（K近邻）并行化

python scala apache-spark machine-learning scikit-learn

Python Scikit使用ApacheSpark学习KNN（K近邻）并行化,python,scala,apache-spark,machine-learning,scikit-learn,Python,Scala,Apache Spark,Machine Learning,Scikit Learn,我一直在用Python和Python的Scikit学习机器学习API研究机器学习KNN（K近邻）算法我已经简单地使用python和Scikit learn用toy dataset创建了示例代码，我的KNN工作得很好。但正如我们所知，Scikit学习API是为在单机上工作而构建的，因此，一旦我用数百万数据集替换我的玩具数据，它将降低我的输出性能我已经搜索了许多选项、帮助和代码示例，它们将使用spark和Scikit learn API并行分发我的机器学习处理，但我没有找到任何合适的解决方案和示

我一直在用Python和Python的Scikit学习机器学习API研究机器学习KNN（K近邻）算法

我已经简单地使用python和Scikit learn用toy dataset创建了示例代码，我的KNN工作得很好。但正如我们所知，Scikit学习API是为在单机上工作而构建的，因此，一旦我用数百万数据集替换我的玩具数据，它将降低我的输出性能

我已经搜索了许多选项、帮助和代码示例，它们将使用spark和Scikit learn API并行分发我的机器学习处理，但我没有找到任何合适的解决方案和示例

您能告诉我如何使用ApacheSpark和Scikit learn API的K近邻来实现和提高性能吗

提前谢谢

根据讨论

https://issues.apache.org/jira/browse/SPARK-2336

此处MLLib（Apache Spark的机器学习库）没有KNN的实现。

你可以试试

https://github.com/saurfang/spark-knn

你的问题很广泛。然而，我认为这篇文章可能会帮助你你好@AlbertoBonsanto，我已经浏览了你提供的链接，但是我没有找到如何用Spark扩展我的Scikit learn KNN。我还浏览了Spark官方网站上提供的Scikit learn第三方软件包，但我不确定API的详细信息，也没有找到适当示例的帮助。嗨，Krishna，是的，Spark MLlib不支持KNN。但在这里，我并没有将Spark的MLlib用于机器学习。我正在使用Python和Scikit学习KNN。但问题是，我的算法需要花费数小时来训练数据集和预测。因此，我想利用我现有的python KNN实现的Spark distribution功能来减少我的处理时间。在这里，Spark只能对网格搜索等超参数优化技术有所帮助。我不确定你是否能达到你所要求的。嗨，奎师那，你是对的。但是我在考虑将模型处理划分为单独的批处理，并使用spark将所有批处理并行化到集群中。我认为这种方法可以实现并行性，但我必须尝试使用实际数据，看看它是否会对处理时间产生任何影响。谢谢