Apache flink 运行多个作业时,Flink的主要瓶颈是什么?

Apache flink 运行多个作业时,Flink的主要瓶颈是什么?,apache-flink,flink-streaming,Apache Flink,Flink Streaming,我的团队正在评估Flink的一些用例,其中我们正在查看大量的处理组,我们希望保持资源隔离在单个集群中运行成千上万个作业时,人们是否会遇到已知的主要陷阱/瓶颈? 到目前为止,我们已经注意到JobManager似乎在完成几百个作业后速度明显减慢,建议将单个大型集群拆分为多个小型集群。这是最好的推荐方法还是有办法让Flink在大量作业的情况下可靠运行?每个集群一个作业可能是一种很有吸引力的方法,但当然,如果作业是短期的,那么为每个作业启动集群的开销可能是不幸的。这种方法的一个优点是安全性,因为作业可以

我的团队正在评估Flink的一些用例,其中我们正在查看大量的处理组,我们希望保持资源隔离在单个集群中运行成千上万个作业时,人们是否会遇到已知的主要陷阱/瓶颈?


到目前为止,我们已经注意到JobManager似乎在完成几百个作业后速度明显减慢,建议将单个大型集群拆分为多个小型集群。这是最好的推荐方法还是有办法让Flink在大量作业的情况下可靠运行?

每个集群一个作业可能是一种很有吸引力的方法,但当然,如果作业是短期的,那么为每个作业启动集群的开销可能是不幸的。这种方法的一个优点是安全性,因为作业可以彼此适当地隔离

相反,即在单个集群中运行大量作业,随着任务管理器和作业数量的增加,协调集群中的所有检查点活动可能成为瓶颈(假设启用了检查点)