Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 运行多个apache spark流作业_Amazon Web Services_Apache Spark_Streaming_Amazon Emr - Fatal编程技术网

Amazon web services 运行多个apache spark流作业

Amazon web services 运行多个apache spark流作业,amazon-web-services,apache-spark,streaming,amazon-emr,Amazon Web Services,Apache Spark,Streaming,Amazon Emr,我对Spark流媒体还不熟悉,正如我所看到的,做同一件事有不同的方法,这让我有点困惑 这是一个场景: 我们每分钟都会发生多个事件(超过50个不同的事件),我想进行一些数据转换,然后将格式从json更改为parquet,并将数据存储在s3存储桶中。我正在创建一个管道,从中获取数据并将其存储在s3存储桶中,然后进行转换(Spark jobs)。我的问题是: 1-如果我运行lambda函数,在单独的子目录中排序每个事件类型,然后读取sparkStreaming中的文件夹,这是否好?还是最好将所有事件存

我对Spark流媒体还不熟悉,正如我所看到的,做同一件事有不同的方法,这让我有点困惑

这是一个场景: 我们每分钟都会发生多个事件(超过50个不同的事件),我想进行一些数据转换,然后将格式从json更改为parquet,并将数据存储在s3存储桶中。我正在创建一个管道,从中获取数据并将其存储在s3存储桶中,然后进行转换(Spark jobs)。我的问题是:

1-如果我运行lambda函数,在单独的子目录中排序每个事件类型,然后读取sparkStreaming中的文件夹,这是否好?还是最好将所有事件存储在同一目录中,然后在我的spark streaming中读取

2-如何同时运行多个SparkStreaming?(我尝试循环浏览架构和文件夹列表,但显然不起作用)

3-我是否需要一个编排工具(气流)来达到我的目的?我需要一直寻找新的事件,中间没有停顿

我将使用,KinesisFirehose->s3(数据湖)->EMR(火花)->s3(数据仓库)


非常感谢您的光临

将多个流解耦并使代码模块化总是好的。。。我希望每个事件类型都在单独的子目录中,然后读取sparkStreaming中的文件夹。。。通过这种方式,我对不同的事件类型有了更多的控制,如果您正确地模块化了代码,那么一个事件类型不会影响其他流……我如何能够同时运行多个SparkStreaming?在文件类型上创建并执行线程池和迭代器,并在处理特定类型事件数据的每个线程内创建单独的streamingContext。