Apache spark Spark广播变量:大型地图

Apache spark Spark广播变量:大型地图,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我正在广播一幅大地图(~6-10GB)。我正在使用sc.broadcast(prod_rdd)来实现这一点。但是,我不确定广播是否仅适用于小数据/文件,而不适用于我拥有的较大对象。如果是前者,建议的做法是什么?一种选择是使用NoSQL数据库,然后使用该数据库进行查找。其中一个问题是,我可能不得不放弃性能,因为我将通过一个节点(区域服务器或其他类似节点)。如果有人能深入了解这些设计选择对性能的影响,我们将不胜感激。我想知道您是否可以使用mapPartitions并在每个分区上阅读一次地图,而不是广

我正在广播一幅大地图(~6-10GB)。我正在使用sc.broadcast(prod_rdd)来实现这一点。但是,我不确定广播是否仅适用于小数据/文件,而不适用于我拥有的较大对象。如果是前者,建议的做法是什么?一种选择是使用NoSQL数据库,然后使用该数据库进行查找。其中一个问题是,我可能不得不放弃性能,因为我将通过一个节点(区域服务器或其他类似节点)。如果有人能深入了解这些设计选择对性能的影响,我们将不胜感激。

我想知道您是否可以使用mapPartitions并在每个分区上阅读一次地图,而不是广播它?

地图中有什么?你能在处理的时候把它分开吗?还是每个碎片都需要整个地图?不幸的是,每个碎片都需要完整的地图。它在用户和他们的历史活动之间沿时间维度进行映射。