Python Hadoop上用于图像处理的Pydoop与Mrjob_Python_Hadoop_Image Processing

Python Hadoop上用于图像处理的Pydoop与Mrjob

python hadoop image-processing

Python Hadoop上用于图像处理的Pydoop与Mrjob,python,hadoop,image-processing,Python,Hadoop,Image Processing,我想在Hadoop平台上处理图像（很可能是大尺寸的），但我不知道从前面提到的两个接口中选择哪一个，特别是对于Hadoop初学者来说。考虑到需要将图像分割成块以在工作机器之间分配处理，并在处理完成后合并块。众所周知，Pydoop可以更好地访问Hadoop API，而mrjob有强大的实用程序来执行作业，哪一个适合用于此类工作？我实际上建议使用pyspark，因为它本机支持二进制文件对于图像处理，您可以尝试TensorFlowOnSpark谢谢您的回复，所以您认为Hadoop上的图像处理在我的情

我想在Hadoop平台上处理图像（很可能是大尺寸的），但我不知道从前面提到的两个接口中选择哪一个，特别是对于Hadoop初学者来说。考虑到需要将图像分割成块以在工作机器之间分配处理，并在处理完成后合并块。

众所周知，Pydoop可以更好地访问Hadoop API，而mrjob有强大的实用程序来执行作业，哪一个适合用于此类工作？

我实际上建议使用pyspark，因为它本机支持二进制文件

对于图像处理，您可以尝试TensorFlowOnSpark

谢谢您的回复，所以您认为Hadoop上的图像处理在我的情况下是一个糟糕的选择，还是不推荐？我认为Spark可以很好地处理需要更多RAM容量的流数据，而Hadoop可以更好地处理批处理。我知道Spark对二进制文件的本机支持在工作时看起来有很大的优势，但我的案例中真的不建议使用Hadoop吗？Kafka是用于流媒体的。Spark与Batch配合使用效果良好。使用Spark甚至不需要Hadoop HDFS/Thread。例如，你可以阅读S3中的图片起初，我认为Hadoop更适合做这样的工作，但在网上搜索之后，就我而言，与Hadoop相比，切换到Spark似乎是一个更好的选择，就像你提到的那样。我期待着从专家或可能了解这一领域的人那里看到更多关于实现这类作品的推荐方法的解释。多谢了，在云计算不那么流行的时候，Hadoop已经有十多年的历史了。Spark和其他工具在这些领域发展得更快。HDFS仍然很流行。不多