Amazon web services Spark Streams:从S3消费时的并行化
我的S3对象将在不同的文件中包含这种类型的数据Amazon web services Spark Streams:从S3消费时的并行化,amazon-web-services,apache-spark,amazon-s3,spark-streaming,Amazon Web Services,Apache Spark,Amazon S3,Spark Streaming,我的S3对象将在不同的文件中包含这种类型的数据 metric-name start-time stop-time request-id service-A 12/06/2017 19:00:00 12/06/2017 19:01:00 12345 service-B 12/06/2017 19:01:00 12/06/2017 19:02:00 12345 service-C 12/06/2017 19:02:00 12/06/2017 19:0
metric-name start-time stop-time request-id
service-A 12/06/2017 19:00:00 12/06/2017 19:01:00 12345
service-B 12/06/2017 19:01:00 12/06/2017 19:02:00 12345
service-C 12/06/2017 19:02:00 12/06/2017 19:03:00 12345
我想运行一个Spark流媒体作业,将这些数据聚合成如下内容
(基本上,创建聚合度量需要一个度量的开始时间和另一个度量的停止时间)
不过,我有几个问题:
有没有办法确定这种分区是如何发生的Spark对S3没有任何特殊规则。拆分的计算方式与文件系统相同。如果文件以不稳定的格式压缩,它将读取整个文件,否则它将根据格式规则进行拆分。问一下:为什么要使用spark streaming来实现它?为什么不将spark core与reduceByKey风格的聚合一起使用?因为我希望它是实时的,而不是会产生延迟结果的批处理过程。我正在努力理解。。为什么只对
A-B
和A-C
进行度量,而不对B-C
进行度量?我们如何确定A、B和C的起点和终点?我们也可以从B到C。
metric-name start-time stop-time request-id
service-A to service-B 12/06/2017 19:00:00 12/06/2017 19:02:00 12345
service-A to service-C 12/06/2017 19:00:00 12/06/2017 19:03:00 12345