Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
是否可以运行Python';在Hadoop上学习算法?_Python_Hadoop_Machine Learning_Bigdata_Scikit Learn - Fatal编程技术网

是否可以运行Python';在Hadoop上学习算法?

是否可以运行Python';在Hadoop上学习算法?,python,hadoop,machine-learning,bigdata,scikit-learn,Python,Hadoop,Machine Learning,Bigdata,Scikit Learn,我知道在Hadoop上使用python语言是可能的 但是有可能在Hadoop上使用scikit learn的机器学习算法吗 如果答案是否定的,那么是否有针对python和Hadoop的机器学习库 谢谢你的帮助。简短回答:是。因为你可以在Hadoop上运行几乎所有的东西 详细回答:这要看情况而定。首先回答这个问题: 您可以将数据集拆分为多个分区吗 此外,您可能会发现演示文稿很有用(Hadoop从第73张幻灯片开始)。请查看jpype模块。通过使用jpype可以运行Mahout算法,您将用Pyt

我知道在Hadoop上使用python语言是可能的

但是有可能在Hadoop上使用scikit learn的机器学习算法吗

如果答案是否定的,那么是否有针对python和Hadoop的机器学习库


谢谢你的帮助。

简短回答:是。因为你可以在Hadoop上运行几乎所有的东西

详细回答:这要看情况而定。首先回答这个问题:

  • 您可以将数据集拆分为多个分区吗

此外,您可能会发现演示文稿很有用(Hadoop从第73张幻灯片开始)。

请查看
jpype
模块。通过使用
jpype
可以运行Mahout算法,您将用Python编写代码。然而,我觉得这不是最好的解决办法。如果你真的想要巨大的可扩展性,那就直接使用Mahout吧。我练习,做POC,使用scikit learn解决玩具问题,但是当我需要进行大规模大数据聚类等时,我会去Mahout。

好的,如果我理解,我们必须编写自己的地图/reudce代码。在python中没有一些高级库可以直接调用hadoop的机器学习算法,对吗?不,您不能用python编写一些通用代码,然后神奇地将其转换为可伸缩的MapReduce作业。“没有这样的技术是肯定的。”shanks_roux今天刚找到它,并认为你可能会感兴趣。是apachespark项目的一部分,它允许您用Python开发机器学习算法(lib与NumPy互操作),并在Hadoop上运行(或不运行)。试试看。