Amazon web services 运行多个apache spark流作业_Amazon Web Services_Apache Spark_Streaming_Amazon Emr

Amazon web services 运行多个apache spark流作业

amazon-web-services apache-spark streaming

Amazon web services 运行多个apache spark流作业,amazon-web-services,apache-spark,streaming,amazon-emr,Amazon Web Services,Apache Spark,Streaming,Amazon Emr,我对Spark流媒体还不熟悉，正如我所看到的，做同一件事有不同的方法，这让我有点困惑这是一个场景：我们每分钟都会发生多个事件（超过50个不同的事件），我想进行一些数据转换，然后将格式从json更改为parquet，并将数据存储在s3存储桶中。我正在创建一个管道，从中获取数据并将其存储在s3存储桶中，然后进行转换（Spark jobs）。我的问题是： 1-如果我运行lambda函数，在单独的子目录中排序每个事件类型，然后读取sparkStreaming中的文件夹，这是否好？还是最好将所有事件存

我对Spark流媒体还不熟悉，正如我所看到的，做同一件事有不同的方法，这让我有点困惑

这是一个场景：我们每分钟都会发生多个事件（超过50个不同的事件），我想进行一些数据转换，然后将格式从json更改为parquet，并将数据存储在s3存储桶中。我正在创建一个管道，从中获取数据并将其存储在s3存储桶中，然后进行转换（Spark jobs）。我的问题是：

1-如果我运行lambda函数，在单独的子目录中排序每个事件类型，然后读取sparkStreaming中的文件夹，这是否好？还是最好将所有事件存储在同一目录中，然后在我的spark streaming中读取
2-如何同时运行多个SparkStreaming？（我尝试循环浏览架构和文件夹列表，但显然不起作用）
3-我是否需要一个编排工具（气流）来达到我的目的？我需要一直寻找新的事件，中间没有停顿
我将使用，KinesisFirehose->s3（数据湖）->EMR（火花）->s3（数据仓库）

非常感谢您的光临
将多个流解耦并使代码模块化总是好的。。。我希望每个事件类型都在单独的子目录中，然后读取sparkStreaming中的文件夹。。。通过这种方式，我对不同的事件类型有了更多的控制，如果您正确地模块化了代码，那么一个事件类型不会影响其他流……我如何能够同时运行多个SparkStreaming？在文件类型上创建并执行线程池和迭代器，并在处理特定类型事件数据的每个线程内创建单独的streamingContext。