Amazon web services hadoop流媒体中的zgrep_Amazon Web Services_Hadoop_Amazon S3

Amazon web services hadoop流媒体中的zgrep

amazon-web-services hadoop amazon-s3

Amazon web services hadoop流媒体中的zgrep,amazon-web-services,hadoop,amazon-s3,Amazon Web Services,Hadoop,Amazon S3,我正在尝试在S3/aws上grep一个zip文件&用相同的文件名将输出写入一个新位置我在s3上使用下面的方法，这是将流式输出从第一个CAT命令写入hdfs输出的正确方法吗 hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/t

我正在尝试在S3/aws上grep一个zip文件&用相同的文件名将输出写入一个新位置

我在s3上使用下面的方法，这是将流式输出从第一个CAT命令写入hdfs输出的正确方法吗

hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/test_20170303-000000.tar.gz

既然您正在使用hadoop，为什么不在集群中运行代码呢？扫描.gzip文件中的字符串很常见，尽管我不知道.tar文件

我个人会使用

-copyToLocal

和

-copyFromLocal

命令将其复制到本地FS并在那里工作。像

-cat

这样的东西的问题是，很多人在Hadoop客户端代码上被注销，因此管道可能会拾取太多无关的积垢