Amazon web services Spark Streams：从S3消费时的并行化_Amazon Web Services_Apache Spark_Amazon S3_Spark Streaming

Amazon web services Spark Streams：从S3消费时的并行化

amazon-web-services apache-spark amazon-s3

Amazon web services Spark Streams：从S3消费时的并行化,amazon-web-services,apache-spark,amazon-s3,spark-streaming,Amazon Web Services,Apache Spark,Amazon S3,Spark Streaming,我的S3对象将在不同的文件中包含这种类型的数据 metric-name start-time stop-time request-id service-A 12/06/2017 19:00:00 12/06/2017 19:01:00 12345 service-B 12/06/2017 19:01:00 12/06/2017 19:02:00 12345 service-C 12/06/2017 19:02:00 12/06/2017 19:0

我的S3对象将在不同的文件中包含这种类型的数据

metric-name start-time          stop-time           request-id
service-A   12/06/2017 19:00:00 12/06/2017 19:01:00 12345
service-B   12/06/2017 19:01:00 12/06/2017 19:02:00 12345
service-C   12/06/2017 19:02:00 12/06/2017 19:03:00 12345

我想运行一个Spark流媒体作业，将这些数据聚合成如下内容

（基本上，创建聚合度量需要一个度量的开始时间和另一个度量的停止时间）

不过，我有几个问题：

从S3消费时，Spark作业如何并行化？他们读书吗同时从不同的文件

有没有办法确定这种分区是如何发生的

在更传统的编程模型中，我可能会创建一个映射构造并使用它来创建聚合指标…如何要做到这一点，请记住，数据可能会传播到各个领域多个S3对象

有没有办法确定这种分区是如何发生的Spark对S3没有任何特殊规则。拆分的计算方式与文件系统相同。如果文件以不稳定的格式压缩，它将读取整个文件，否则它将根据格式规则进行拆分。问一下：为什么要使用spark streaming来实现它？为什么不将spark core与reduceByKey风格的聚合一起使用？因为我希望它是实时的，而不是会产生延迟结果的批处理过程。我正在努力理解。。为什么只对

A-B

和

A-C

进行度量，而不对

B-C

进行度量？我们如何确定A、B和C的起点和终点？我们也可以从B到C。

metric-name             start-time          stop-time           request-id
service-A to service-B  12/06/2017 19:00:00 12/06/2017 19:02:00 12345
service-A to service-C  12/06/2017 19:00:00 12/06/2017 19:03:00 12345