Apache flink 运行多个作业时，Flink的主要瓶颈是什么？_Apache Flink_Flink Streaming

Apache flink 运行多个作业时，Flink的主要瓶颈是什么？

apache-flink

Apache flink 运行多个作业时，Flink的主要瓶颈是什么？,apache-flink,flink-streaming,Apache Flink,Flink Streaming,我的团队正在评估Flink的一些用例，其中我们正在查看大量的处理组，我们希望保持资源隔离在单个集群中运行成千上万个作业时，人们是否会遇到已知的主要陷阱/瓶颈？到目前为止，我们已经注意到JobManager似乎在完成几百个作业后速度明显减慢，建议将单个大型集群拆分为多个小型集群。这是最好的推荐方法还是有办法让Flink在大量作业的情况下可靠运行？每个集群一个作业可能是一种很有吸引力的方法，但当然，如果作业是短期的，那么为每个作业启动集群的开销可能是不幸的。这种方法的一个优点是安全性，因为作业可以

我的团队正在评估Flink的一些用例，其中我们正在查看大量的处理组，我们希望保持资源隔离在单个集群中运行成千上万个作业时，人们是否会遇到已知的主要陷阱/瓶颈？

到目前为止，我们已经注意到JobManager似乎在完成几百个作业后速度明显减慢，建议将单个大型集群拆分为多个小型集群。这是最好的推荐方法还是有办法让Flink在大量作业的情况下可靠运行？

每个集群一个作业可能是一种很有吸引力的方法，但当然，如果作业是短期的，那么为每个作业启动集群的开销可能是不幸的。这种方法的一个优点是安全性，因为作业可以彼此适当地隔离

相反，即在单个集群中运行大量作业，随着任务管理器和作业数量的增加，协调集群中的所有检查点活动可能成为瓶颈（假设启用了检查点）