Amazon web services 使用Spark或AWS服务读取ZIP文件
我必须阅读一个上传到s3的压缩文件 功能:当任何文件上传到s3上时,会触发lambda,从而触发spark作业 我应该在哪里读取该文件,在AWS Lambda中还是通过Apache Spark?哪一个是有益的?Amazon web services 使用Spark或AWS服务读取ZIP文件,amazon-web-services,apache-spark,amazon-s3,aws-lambda,Amazon Web Services,Apache Spark,Amazon S3,Aws Lambda,我必须阅读一个上传到s3的压缩文件 功能:当任何文件上传到s3上时,会触发lambda,从而触发spark作业 我应该在哪里读取该文件,在AWS Lambda中还是通过Apache Spark?哪一个是有益的? 我应该如何读取spark中的压缩文件?您提出了多个问题。所以我试着回答你的每一个问题 我需要在哪里阅读:通过lambda还是通过spark,哪一个是有益的 您可以让s3触发lambda,lambda触发EMR spark 这里有很多例子 如何读取spark中的压缩文件 首先,哪
我应该如何读取spark中的压缩文件?您提出了多个问题。所以我试着回答你的每一个问题 我需要在哪里阅读:通过lambda还是通过spark,哪一个是有益的 您可以让s3触发lambda,lambda触发EMR spark 这里有很多例子
name | ext | codec class
-------------------------------------------------------------
bzip2 | .bz2 | org.apache.hadoop.io.compress.BZip2Codec
default | .deflate | org.apache.hadoop.io.compress.DefaultCodec
deflate | .deflate | org.apache.hadoop.io.compress.DeflateCodec
gzip | .gz | org.apache.hadoop.io.compress.GzipCodec
lz4 | .lz4 | org.apache.hadoop.io.compress.Lz4Codec
snappy | .snappy | org.apache.hadoop.io.compress.SnappyCodec
如果支持压缩类型,则可以通过以下示例代码读取压缩文件
rdd = sc.textFile("s3://bucket/project/logfilexxxxx.*.gz")
你问了很多问题。所以我试着回答你的每一个问题 我需要在哪里阅读:通过lambda还是通过spark,哪一个是有益的 您可以让s3触发lambda,lambda触发EMR spark 这里有很多例子
name | ext | codec class
-------------------------------------------------------------
bzip2 | .bz2 | org.apache.hadoop.io.compress.BZip2Codec
default | .deflate | org.apache.hadoop.io.compress.DefaultCodec
deflate | .deflate | org.apache.hadoop.io.compress.DeflateCodec
gzip | .gz | org.apache.hadoop.io.compress.GzipCodec
lz4 | .lz4 | org.apache.hadoop.io.compress.Lz4Codec
snappy | .snappy | org.apache.hadoop.io.compress.SnappyCodec
如果支持压缩类型,则可以通过以下示例代码读取压缩文件
rdd = sc.textFile("s3://bucket/project/logfilexxxxx.*.gz")