是否可以运行Python';在Hadoop上学习算法?
我知道在Hadoop上使用python语言是可能的 但是有可能在Hadoop上使用scikit learn的机器学习算法吗 如果答案是否定的,那么是否有针对python和Hadoop的机器学习库是否可以运行Python';在Hadoop上学习算法?,python,hadoop,machine-learning,bigdata,scikit-learn,Python,Hadoop,Machine Learning,Bigdata,Scikit Learn,我知道在Hadoop上使用python语言是可能的 但是有可能在Hadoop上使用scikit learn的机器学习算法吗 如果答案是否定的,那么是否有针对python和Hadoop的机器学习库 谢谢你的帮助。简短回答:是。因为你可以在Hadoop上运行几乎所有的东西 详细回答:这要看情况而定。首先回答这个问题: 您可以将数据集拆分为多个分区吗 此外,您可能会发现演示文稿很有用(Hadoop从第73张幻灯片开始)。请查看jpype模块。通过使用jpype可以运行Mahout算法,您将用Pyt
谢谢你的帮助。简短回答:是。因为你可以在Hadoop上运行几乎所有的东西 详细回答:这要看情况而定。首先回答这个问题:
- 您可以将数据集拆分为多个分区吗
此外,您可能会发现演示文稿很有用(Hadoop从第73张幻灯片开始)。请查看
jpype
模块。通过使用jpype
可以运行Mahout算法,您将用Python编写代码。然而,我觉得这不是最好的解决办法。如果你真的想要巨大的可扩展性,那就直接使用Mahout吧。我练习,做POC,使用scikit learn解决玩具问题,但是当我需要进行大规模大数据聚类等时,我会去Mahout。好的,如果我理解,我们必须编写自己的地图/reudce代码。在python中没有一些高级库可以直接调用hadoop的机器学习算法,对吗?不,您不能用python编写一些通用代码,然后神奇地将其转换为可伸缩的MapReduce作业。“没有这样的技术是肯定的。”shanks_roux今天刚找到它,并认为你可能会感兴趣。是apachespark项目的一部分,它允许您用Python开发机器学习算法(lib与NumPy互操作),并在Hadoop上运行(或不运行)。试试看。