Apache spark 如何在流式处理用例中更新大型广播变量？_Apache Spark

Apache spark 如何在流式处理用例中更新大型广播变量？

apache-spark

Apache spark 如何在流式处理用例中更新大型广播变量？,apache-spark,Apache Spark,我有一个用例，其中我有一个从kafka队列获取输入数据的流作业。我有一百万行的参考数据，每小时更新一次。我将参考数据加载到驱动程序中，然后将其广播给工人。我想更新这个广播变量（在驱动程序中）并将其重新发送给工人在spark中，在不引入hbase/redis/cassandra等的情况下，最好的方法是什么这有多可靠如果需要更多信息，请务必告诉我。提前谢谢你下文给出了类似问题的答案：简而言之，您将需要：“unpersist”广播变量、更新并重播它附：正式地说，这个问题不是重复的，因为它是

我有一个用例，其中我有一个从kafka队列获取输入数据的流作业。我有一百万行的参考数据，每小时更新一次。我将参考数据加载到驱动程序中，然后将其广播给工人。我想更新这个广播变量（在驱动程序中）并将其重新发送给工人

在spark中，在不引入hbase/redis/cassandra等的情况下，最好的方法是什么

这有多可靠

如果需要更多信息，请务必告诉我。提前谢谢你

下文给出了类似问题的答案：

简而言之，您将需要：“unpersist”广播变量、更新并重播它

附：正式地说，这个问题不是重复的，因为它是先前发布的