Python Scikit使用ApacheSpark学习KNN(K近邻)并行化

Python Scikit使用ApacheSpark学习KNN(K近邻)并行化,python,scala,apache-spark,machine-learning,scikit-learn,Python,Scala,Apache Spark,Machine Learning,Scikit Learn,我一直在用Python和Python的Scikit学习机器学习API研究机器学习KNN(K近邻)算法 我已经简单地使用python和Scikit learn用toy dataset创建了示例代码,我的KNN工作得很好。但正如我们所知,Scikit学习API是为在单机上工作而构建的,因此,一旦我用数百万数据集替换我的玩具数据,它将降低我的输出性能 我已经搜索了许多选项、帮助和代码示例,它们将使用spark和Scikit learn API并行分发我的机器学习处理,但我没有找到任何合适的解决方案和示

我一直在用Python和Python的Scikit学习机器学习API研究机器学习KNN(K近邻)算法

我已经简单地使用python和Scikit learn用toy dataset创建了示例代码,我的KNN工作得很好。但正如我们所知,Scikit学习API是为在单机上工作而构建的,因此,一旦我用数百万数据集替换我的玩具数据,它将降低我的输出性能

我已经搜索了许多选项、帮助和代码示例,它们将使用spark和Scikit learn API并行分发我的机器学习处理,但我没有找到任何合适的解决方案和示例

您能告诉我如何使用ApacheSpark和Scikit learn API的K近邻来实现和提高性能吗


提前谢谢

根据讨论
https://issues.apache.org/jira/browse/SPARK-2336
此处MLLib(Apache Spark的机器学习库)没有KNN的实现。
你可以试试
https://github.com/saurfang/spark-knn

你的问题很广泛。然而,我认为这篇文章可能会帮助你你好@AlbertoBonsanto,我已经浏览了你提供的链接,但是我没有找到如何用Spark扩展我的Scikit learn KNN。我还浏览了Spark官方网站上提供的Scikit learn第三方软件包,但我不确定API的详细信息,也没有找到适当示例的帮助。嗨,Krishna,是的,Spark MLlib不支持KNN。但在这里,我并没有将Spark的MLlib用于机器学习。我正在使用Python和Scikit学习KNN。但问题是,我的算法需要花费数小时来训练数据集和预测。因此,我想利用我现有的python KNN实现的Spark distribution功能来减少我的处理时间。在这里,Spark只能对网格搜索等超参数优化技术有所帮助。我不确定你是否能达到你所要求的。嗨,奎师那,你是对的。但是我在考虑将模型处理划分为单独的批处理,并使用spark将所有批处理并行化到集群中。我认为这种方法可以实现并行性,但我必须尝试使用实际数据,看看它是否会对处理时间产生任何影响。谢谢