Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services hadoop流媒体中的zgrep_Amazon Web Services_Hadoop_Amazon S3 - Fatal编程技术网

Amazon web services hadoop流媒体中的zgrep

Amazon web services hadoop流媒体中的zgrep,amazon-web-services,hadoop,amazon-s3,Amazon Web Services,Hadoop,Amazon S3,我正在尝试在S3/aws上grep一个zip文件&用相同的文件名将输出写入一个新位置 我在s3上使用下面的方法,这是将流式输出从第一个CAT命令写入hdfs输出的正确方法吗 hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/t

我正在尝试在S3/aws上grep一个zip文件&用相同的文件名将输出写入一个新位置

我在s3上使用下面的方法,这是将流式输出从第一个CAT命令写入hdfs输出的正确方法吗

hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/test_20170303-000000.tar.gz
  • 既然您正在使用hadoop,为什么不在集群中运行代码呢?扫描.gzip文件中的字符串很常见,尽管我不知道.tar文件
  • 我个人会使用
    -copyToLocal
    -copyFromLocal
    命令将其复制到本地FS并在那里工作。像
    -cat
    这样的东西的问题是,很多人在Hadoop客户端代码上被注销,因此管道可能会拾取太多无关的积垢