使用hadoop流媒体拆分压缩文件_Hadoop_Mapreduce_Compression_Hadoop Streaming_Google Cloud Platform

使用hadoop流媒体拆分压缩文件

hadoop mapreduce compression google-cloud-platform

使用hadoop流媒体拆分压缩文件,hadoop,mapreduce,compression,hadoop-streaming,google-cloud-platform,Hadoop,Mapreduce,Compression,Hadoop Streaming,Google Cloud Platform,我正试图在谷歌的云平台上使用Hadoop流作业处理许多大型（>1GB）Gzip文件。即使在内存较大的机器上，作业也会不断耗尽内存。我知道我应该先用LZO压缩它们，或者先解压它们来解决这个问题。我想解压它们或者使用Hadoop流作业将它们分割成更小的文件。有没有办法做到这一点而不出现内存问题？如果没有，你能推荐另一种方法来处理这个问题而不先下载我的数据吗谢谢

我正试图在谷歌的云平台上使用Hadoop流作业处理许多大型（>1GB）Gzip文件。即使在内存较大的机器上，作业也会不断耗尽内存。我知道我应该先用LZO压缩它们，或者先解压它们来解决这个问题。我想解压它们或者使用Hadoop流作业将它们分割成更小的文件。有没有办法做到这一点而不出现内存问题？如果没有，你能推荐另一种方法来处理这个问题而不先下载我的数据吗

谢谢