Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services Spark Streams:从S3消费时的并行化_Amazon Web Services_Apache Spark_Amazon S3_Spark Streaming - Fatal编程技术网

Amazon web services Spark Streams:从S3消费时的并行化

Amazon web services Spark Streams:从S3消费时的并行化,amazon-web-services,apache-spark,amazon-s3,spark-streaming,Amazon Web Services,Apache Spark,Amazon S3,Spark Streaming,我的S3对象将在不同的文件中包含这种类型的数据 metric-name start-time stop-time request-id service-A 12/06/2017 19:00:00 12/06/2017 19:01:00 12345 service-B 12/06/2017 19:01:00 12/06/2017 19:02:00 12345 service-C 12/06/2017 19:02:00 12/06/2017 19:0

我的S3对象将在不同的文件中包含这种类型的数据

metric-name start-time          stop-time           request-id
service-A   12/06/2017 19:00:00 12/06/2017 19:01:00 12345
service-B   12/06/2017 19:01:00 12/06/2017 19:02:00 12345
service-C   12/06/2017 19:02:00 12/06/2017 19:03:00 12345
我想运行一个Spark流媒体作业,将这些数据聚合成如下内容

(基本上,创建聚合度量需要一个度量的开始时间和另一个度量的停止时间)

不过,我有几个问题:

  • 从S3消费时,Spark作业如何并行化?他们读书吗 同时从不同的文件
  • 有没有办法确定这种分区是如何发生的
  • 在更传统的编程模型中,我可能会创建一个映射 构造并使用它来创建聚合指标…如何 要做到这一点,请记住,数据可能会传播到各个领域 多个S3对象

  • 有没有办法确定这种分区是如何发生的Spark对S3没有任何特殊规则。拆分的计算方式与文件系统相同。如果文件以不稳定的格式压缩,它将读取整个文件,否则它将根据格式规则进行拆分。问一下:为什么要使用spark streaming来实现它?为什么不将spark core与reduceByKey风格的聚合一起使用?因为我希望它是实时的,而不是会产生延迟结果的批处理过程。我正在努力理解。。为什么只对
    A-B
    A-C
    进行度量,而不对
    B-C
    进行度量?我们如何确定A、B和C的起点和终点?我们也可以从B到C。
    metric-name             start-time          stop-time           request-id
    service-A to service-B  12/06/2017 19:00:00 12/06/2017 19:02:00 12345
    service-A to service-C  12/06/2017 19:00:00 12/06/2017 19:03:00 12345