Hadoop 从HDFS加载到S3时如何解压缩文件?
我有Hadoop 从HDFS加载到S3时如何解压缩文件?,hadoop,snowflake-cloud-data-platform,distcp,s3distcp,Hadoop,Snowflake Cloud Data Platform,Distcp,S3distcp,我有lzo格式的csv文件HDFS我想将这些文件加载到s3,然后加载到snowflake,因为snowflake不提供csv文件格式的lzo压缩,在加载这些文件到S3时,我需要转换它。 你可以考虑在登陆S3时使用一个LAMBDA函数来解压缩文件,这里有一个链接让你在那里: 你可以考虑在登陆S3时使用一个LAMBDA函数来解压缩文件,这里有一个链接让你在那里: 这帮助我将.lzo\u deflate转换为所需的雪花兼容输出格式: hadoop jar $HADOOP_HOME/contrib/
lzo
格式的csv文件HDFS
我想将这些文件加载到s3,然后加载到snowflake,因为snowflake不提供csv文件格式的lzo压缩,在加载这些文件到S3时,我需要转换它。 你可以考虑在登陆S3时使用一个LAMBDA函数来解压缩文件,这里有一个链接让你在那里:
你可以考虑在登陆S3时使用一个LAMBDA函数来解压缩文件,这里有一个链接让你在那里: 这帮助我将
.lzo\u deflate
转换为所需的雪花兼容输出格式:
hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \
-Dmapred.output.compress=true \
-Dmapred.compress.map.output=true \
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
-Dmapred.reduce.tasks=0 \
-input <input-path> \
-output $OUTPUT \
-mapper "cut -f 2"
hadoop jar$hadoop_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar\
-Dmapred.output.compress=true\
-Dmapred.compress.map.output=true\
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.gzip代码\
-Dmapred.reduce.tasks=0\
-输入\
-输出$输出\
-制图器“切割-f 2”
这帮助我将.lzo\u deflate
转换为所需的雪花兼容输出格式:
hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \
-Dmapred.output.compress=true \
-Dmapred.compress.map.output=true \
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
-Dmapred.reduce.tasks=0 \
-input <input-path> \
-output $OUTPUT \
-mapper "cut -f 2"
hadoop jar$hadoop_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar\
-Dmapred.output.compress=true\
-Dmapred.compress.map.output=true\
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.gzip代码\
-Dmapred.reduce.tasks=0\
-输入\
-输出$输出\
-制图器“切割-f 2”
抱歉,这不是我的用例的选项,因为这是管道的一部分,无法为Lambda添加其他步骤。不过感谢您的建议。抱歉,这不是我的用例的选项,因为这是管道的一部分,无法为Lambda添加其他步骤。不过,感谢您的建议。如果您使用的是s3distcp,您可以指定输出压缩编解码器?@mazaneicha感谢您的响应,我可以在EMR之外使用s3distcp吗?如果您使用的是s3distcp,您可以指定输出压缩编解码器?@mazaneicha感谢您的响应,我可以在EMR之外使用s3distcp吗?