Apache spark 将数以百万计的密钥保持在Spark流媒体工作状态两个月是否可行？_Apache Spark_Spark Streaming

Apache spark 将数以百万计的密钥保持在Spark流媒体工作状态两个月是否可行？

apache-spark

Apache spark 将数以百万计的密钥保持在Spark流媒体工作状态两个月是否可行？,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在尝试解决Spark Streaming中的一个（此处简化）问题：假设我有一个用户创建的事件日志，其中每个事件都是一个元组（用户名、活动、时间），例如：现在我想按用户收集事件，对其进行一些分析。假设输出是对以下各项的一些分析： ("user1", List(("view", "2015-04-14T21:04Z"),("click", "2015-04-14T21:05Z")) 事件应保存两个月。在这段时间内，可能会有大约5亿这样的事件，以及数以百万计的独特用户，这是这里的关键我的问题

我正在尝试解决Spark Streaming中的一个（此处简化）问题：假设我有一个用户创建的事件日志，其中每个事件都是一个元组（用户名、活动、时间），例如：

现在我想按用户收集事件，对其进行一些分析。假设输出是对以下各项的一些分析：

("user1", List(("view", "2015-04-14T21:04Z"),("click", "2015-04-14T21:05Z"))

事件应保存两个月。在这段时间内，可能会有大约5亿这样的事件，以及数以百万计的独特用户，这是这里的关键

我的问题是：

当我存储了数百万个密钥时，在DStream上使用
```
updateStateByKey
```
做这样的事情可行吗
当我有2个月的时间窗口，并且想要几秒钟的幻灯片时，
```
DStream.window
```
在这里没有用，我说得对吗

附言。我发现，

updateStateByKey

在每张幻灯片上的所有键上都被调用，这意味着每隔几秒钟就会调用数百万次。这让我对这种设计产生了怀疑，我正在考虑其他解决方案，如：

使用Cassandra进行状态分析
使用三叉戟状态（可能与卡桑德拉一起使用）
使用Samza及其状态管理

("user1", List(("view", "2015-04-14T21:04Z"),("click", "2015-04-14T21:05Z"))