Apache flink 弗林克,怎么算?

Apache flink 弗林克,怎么算?,apache-flink,flink-streaming,Apache Flink,Flink Streaming,我看到一篇帖子,在帖子里,一个叫Klaviyo的公司里的人在不同的时间段,每小时,每天,甚至每月都在计算 我有几个问题,如果我理解正确的话,他们在使用timewindow,但是像一天这样长时间使用timewindow正常吗 这对我来说没什么意义,如果你每天或每月都在盘点,为什么不使用批处理呢?在这种情况下使用流媒体的基本好处是什么 另一种情况是,如果我需要从一开始就实时计算卡夫卡事件,那么现实世界的解决方案是什么?每次事件到达时,使用flink streaming更新redis中的计数器?如果卡

我看到一篇帖子,在帖子里,一个叫Klaviyo的公司里的人在不同的时间段,每小时,每天,甚至每月都在计算

我有几个问题,如果我理解正确的话,他们在使用timewindow,但是像一天这样长时间使用timewindow正常吗

这对我来说没什么意义,如果你每天或每月都在盘点,为什么不使用批处理呢?在这种情况下使用流媒体的基本好处是什么

另一种情况是,如果我需要从一开始就实时计算卡夫卡事件,那么现实世界的解决方案是什么?每次事件到达时,使用flink streaming更新redis中的计数器?如果卡夫卡相当繁忙,比如每秒数百万条消息,那么会不会有太多的IO和网络

如果你每天或每月做一次调查,这对我来说没有意义 计数,为什么不使用批处理?最根本的问题是什么 在这种情况下使用流媒体的好处是什么

当然,您可以进行其他批处理。但您将如何处理重新处理?您必须重新启动批处理流程和实时流程,并且数据可能不匹配,因为您有两个流程

对于几天内的聚合,有一个解决方案,这样数据就不会爆炸内存。在KafkaStream中,数据甚至被存储回Kafka


如果每次事件发生时都需要更新计数器,那么问题是是否需要有人以0.001毫秒为单位查看计数器?因为您可以在0.3秒内批量处理流媒体管道,人们可以在最佳状态下感知到这一点。这就是为什么人们也说近实时,这意味着它不是实时的,但它已经满足了需求。

谢谢你的回答,如果时间框架是每小时、每天和每月,我认为我们可以使用批处理+一些调度系统,为什么会有两个进程?是的,每小时、每天不需要两个。如果使用每分钟或,则需要实时处理和批处理