Hadoop 从HDFS加载到S3时如何解压缩文件?

Hadoop 从HDFS加载到S3时如何解压缩文件?,hadoop,snowflake-cloud-data-platform,distcp,s3distcp,Hadoop,Snowflake Cloud Data Platform,Distcp,S3distcp,我有lzo格式的csv文件HDFS我想将这些文件加载到s3,然后加载到snowflake,因为snowflake不提供csv文件格式的lzo压缩,在加载这些文件到S3时,我需要转换它。 你可以考虑在登陆S3时使用一个LAMBDA函数来解压缩文件,这里有一个链接让你在那里: 你可以考虑在登陆S3时使用一个LAMBDA函数来解压缩文件,这里有一个链接让你在那里: 这帮助我将.lzo\u deflate转换为所需的雪花兼容输出格式: hadoop jar $HADOOP_HOME/contrib/

我有
lzo
格式的csv文件
HDFS
我想将这些文件加载到s3,然后加载到snowflake,因为snowflake不提供csv文件格式的lzo压缩,在加载这些文件到S3时,我需要转换它。

你可以考虑在登陆S3时使用一个LAMBDA函数来解压缩文件,这里有一个链接让你在那里:


你可以考虑在登陆S3时使用一个LAMBDA函数来解压缩文件,这里有一个链接让你在那里:

这帮助我将
.lzo\u deflate
转换为所需的雪花兼容输出格式:

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \
  -Dmapred.output.compress=true \
  -Dmapred.compress.map.output=true \
  -Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
  -Dmapred.reduce.tasks=0 \
  -input <input-path> \
  -output $OUTPUT \
  -mapper "cut -f 2"
hadoop jar$hadoop_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar\
-Dmapred.output.compress=true\
-Dmapred.compress.map.output=true\
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.gzip代码\
-Dmapred.reduce.tasks=0\
-输入\
-输出$输出\
-制图器“切割-f 2”
这帮助我将
.lzo\u deflate
转换为所需的雪花兼容输出格式:

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \
  -Dmapred.output.compress=true \
  -Dmapred.compress.map.output=true \
  -Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
  -Dmapred.reduce.tasks=0 \
  -input <input-path> \
  -output $OUTPUT \
  -mapper "cut -f 2"
hadoop jar$hadoop_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar\
-Dmapred.output.compress=true\
-Dmapred.compress.map.output=true\
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.gzip代码\
-Dmapred.reduce.tasks=0\
-输入\
-输出$输出\
-制图器“切割-f 2”

抱歉,这不是我的用例的选项,因为这是管道的一部分,无法为Lambda添加其他步骤。不过感谢您的建议。抱歉,这不是我的用例的选项,因为这是管道的一部分,无法为Lambda添加其他步骤。不过,感谢您的建议。如果您使用的是s3distcp,您可以指定输出压缩编解码器?@mazaneicha感谢您的响应,我可以在EMR之外使用s3distcp吗?如果您使用的是s3distcp,您可以指定输出压缩编解码器?@mazaneicha感谢您的响应,我可以在EMR之外使用s3distcp吗?