Amazon web services 使用Spark或AWS服务读取ZIP文件

Amazon web services 使用Spark或AWS服务读取ZIP文件,amazon-web-services,apache-spark,amazon-s3,aws-lambda,Amazon Web Services,Apache Spark,Amazon S3,Aws Lambda,我必须阅读一个上传到s3的压缩文件 功能:当任何文件上传到s3上时,会触发lambda,从而触发spark作业 我应该在哪里读取该文件,在AWS Lambda中还是通过Apache Spark?哪一个是有益的? 我应该如何读取spark中的压缩文件?您提出了多个问题。所以我试着回答你的每一个问题 我需要在哪里阅读:通过lambda还是通过spark,哪一个是有益的 您可以让s3触发lambda,lambda触发EMR spark 这里有很多例子 如何读取spark中的压缩文件 首先,哪

我必须阅读一个上传到s3的压缩文件

功能:当任何文件上传到s3上时,会触发lambda,从而触发spark作业

我应该在哪里读取该文件,在AWS Lambda中还是通过Apache Spark?哪一个是有益的?
我应该如何读取spark中的压缩文件?

您提出了多个问题。所以我试着回答你的每一个问题

我需要在哪里阅读:通过lambda还是通过spark,哪一个是有益的

您可以让s3触发lambda,lambda触发EMR spark

这里有很多例子

如何读取spark中的压缩文件

首先,哪种压缩文件?Spark和Hadoop支持以下压缩类型

name    | ext      | codec class
-------------------------------------------------------------
bzip2   | .bz2     | org.apache.hadoop.io.compress.BZip2Codec 
default | .deflate | org.apache.hadoop.io.compress.DefaultCodec 
deflate | .deflate | org.apache.hadoop.io.compress.DeflateCodec 
gzip    | .gz      | org.apache.hadoop.io.compress.GzipCodec 
lz4     | .lz4     | org.apache.hadoop.io.compress.Lz4Codec 
snappy  | .snappy  | org.apache.hadoop.io.compress.SnappyCodec
如果支持压缩类型,则可以通过以下示例代码读取压缩文件

rdd = sc.textFile("s3://bucket/project/logfilexxxxx.*.gz")


你问了很多问题。所以我试着回答你的每一个问题

我需要在哪里阅读:通过lambda还是通过spark,哪一个是有益的

您可以让s3触发lambda,lambda触发EMR spark

这里有很多例子

如何读取spark中的压缩文件

首先,哪种压缩文件?Spark和Hadoop支持以下压缩类型

name    | ext      | codec class
-------------------------------------------------------------
bzip2   | .bz2     | org.apache.hadoop.io.compress.BZip2Codec 
default | .deflate | org.apache.hadoop.io.compress.DefaultCodec 
deflate | .deflate | org.apache.hadoop.io.compress.DeflateCodec 
gzip    | .gz      | org.apache.hadoop.io.compress.GzipCodec 
lz4     | .lz4     | org.apache.hadoop.io.compress.Lz4Codec 
snappy  | .snappy  | org.apache.hadoop.io.compress.SnappyCodec
如果支持压缩类型,则可以通过以下示例代码读取压缩文件

rdd = sc.textFile("s3://bucket/project/logfilexxxxx.*.gz")