Amazon web services hadoop流媒体中的zgrep
我正在尝试在S3/aws上grep一个zip文件&用相同的文件名将输出写入一个新位置 我在s3上使用下面的方法,这是将流式输出从第一个CAT命令写入hdfs输出的正确方法吗Amazon web services hadoop流媒体中的zgrep,amazon-web-services,hadoop,amazon-s3,Amazon Web Services,Hadoop,Amazon S3,我正在尝试在S3/aws上grep一个zip文件&用相同的文件名将输出写入一个新位置 我在s3上使用下面的方法,这是将流式输出从第一个CAT命令写入hdfs输出的正确方法吗 hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/t
hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/test_20170303-000000.tar.gz
-copyToLocal
和-copyFromLocal
命令将其复制到本地FS并在那里工作。像-cat
这样的东西的问题是,很多人在Hadoop客户端代码上被注销,因此管道可能会拾取太多无关的积垢