Apache spark Spark广播变量：大型地图_Apache Spark_Apache Spark Sql

Apache spark Spark广播变量：大型地图

apache-spark

Apache spark Spark广播变量：大型地图,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我正在广播一幅大地图（~6-10GB）。我正在使用sc.broadcast（prod_rdd）来实现这一点。但是，我不确定广播是否仅适用于小数据/文件，而不适用于我拥有的较大对象。如果是前者，建议的做法是什么？一种选择是使用NoSQL数据库，然后使用该数据库进行查找。其中一个问题是，我可能不得不放弃性能，因为我将通过一个节点（区域服务器或其他类似节点）。如果有人能深入了解这些设计选择对性能的影响，我们将不胜感激。我想知道您是否可以使用mapPartitions并在每个分区上阅读一次地图，而不是广

我正在广播一幅大地图（~6-10GB）。我正在使用sc.broadcast（prod_rdd）来实现这一点。但是，我不确定广播是否仅适用于小数据/文件，而不适用于我拥有的较大对象。如果是前者，建议的做法是什么？一种选择是使用NoSQL数据库，然后使用该数据库进行查找。其中一个问题是，我可能不得不放弃性能，因为我将通过一个节点（区域服务器或其他类似节点）。如果有人能深入了解这些设计选择对性能的影响，我们将不胜感激。

我想知道您是否可以使用mapPartitions并在每个分区上阅读一次地图，而不是广播它？

地图中有什么？你能在处理的时候把它分开吗？还是每个碎片都需要整个地图？不幸的是，每个碎片都需要完整的地图。它在用户和他们的历史活动之间沿时间维度进行映射。