Amazon web services 使用Spark或AWS服务读取ZIP文件_Amazon Web Services_Apache Spark_Amazon S3_Aws Lambda

Amazon web services 使用Spark或AWS服务读取ZIP文件

amazon-web-services apache-spark amazon-s3 aws-lambda

Amazon web services 使用Spark或AWS服务读取ZIP文件,amazon-web-services,apache-spark,amazon-s3,aws-lambda,Amazon Web Services,Apache Spark,Amazon S3,Aws Lambda,我必须阅读一个上传到s3的压缩文件功能：当任何文件上传到s3上时，会触发lambda，从而触发spark作业我应该在哪里读取该文件，在AWS Lambda中还是通过Apache Spark？哪一个是有益的？我应该如何读取spark中的压缩文件？您提出了多个问题。所以我试着回答你的每一个问题我需要在哪里阅读：通过lambda还是通过spark，哪一个是有益的您可以让s3触发lambda，lambda触发EMR spark 这里有很多例子如何读取spark中的压缩文件首先，哪

我必须阅读一个上传到s3的压缩文件

功能：当任何文件上传到s3上时，会触发lambda，从而触发spark作业

我应该在哪里读取该文件，在AWS Lambda中还是通过Apache Spark？哪一个是有益的？

我应该如何读取spark中的压缩文件？

您提出了多个问题。所以我试着回答你的每一个问题

我需要在哪里阅读：通过lambda还是通过spark，哪一个是有益的

您可以让s3触发lambda，lambda触发EMR spark

这里有很多例子

如何读取spark中的压缩文件

首先，哪种压缩文件？Spark和Hadoop支持以下压缩类型

name    | ext      | codec class
-------------------------------------------------------------
bzip2   | .bz2     | org.apache.hadoop.io.compress.BZip2Codec 
default | .deflate | org.apache.hadoop.io.compress.DefaultCodec 
deflate | .deflate | org.apache.hadoop.io.compress.DeflateCodec 
gzip    | .gz      | org.apache.hadoop.io.compress.GzipCodec 
lz4     | .lz4     | org.apache.hadoop.io.compress.Lz4Codec 
snappy  | .snappy  | org.apache.hadoop.io.compress.SnappyCodec

如果支持压缩类型，则可以通过以下示例代码读取压缩文件

rdd = sc.textFile("s3://bucket/project/logfilexxxxx.*.gz")

你问了很多问题。所以我试着回答你的每一个问题