使用hadoop流媒体拆分压缩文件

使用hadoop流媒体拆分压缩文件,hadoop,mapreduce,compression,hadoop-streaming,google-cloud-platform,Hadoop,Mapreduce,Compression,Hadoop Streaming,Google Cloud Platform,我正试图在谷歌的云平台上使用Hadoop流作业处理许多大型(>1GB)Gzip文件。即使在内存较大的机器上,作业也会不断耗尽内存。我知道我应该先用LZO压缩它们,或者先解压它们来解决这个问题。我想解压它们或者使用Hadoop流作业将它们分割成更小的文件。有没有办法做到这一点而不出现内存问题?如果没有,你能推荐另一种方法来处理这个问题而不先下载我的数据吗 谢谢

我正试图在谷歌的云平台上使用Hadoop流作业处理许多大型(>1GB)Gzip文件。即使在内存较大的机器上,作业也会不断耗尽内存。我知道我应该先用LZO压缩它们,或者先解压它们来解决这个问题。我想解压它们或者使用Hadoop流作业将它们分割成更小的文件。有没有办法做到这一点而不出现内存问题?如果没有,你能推荐另一种方法来处理这个问题而不先下载我的数据吗

谢谢