Apache spark SPARK-每天将大数据集与小数据集连接起来

Apache spark SPARK-每天将大数据集与小数据集连接起来,apache-spark,machine-learning,spark-streaming,Apache Spark,Machine Learning,Spark Streaming,到今天为止,我有一个不断增长的表,有4300万行。我需要每天用另一个较小的数据集连接这个表 我的集群配置是 Nodes : 3 Memory : 162 GB in total - 54GB per node Total Cores : 24 问题: 1.对于批处理作业-如何每天将这个大表与较小的数据集连接起来? 2.对于Spark Streaming,实时连接这两个表的最佳方式是什么 我的想法: 1.为此使用广播变量-与大表相比,较小的数据集是“小”的,但不足以容纳内存。 2.分块处

到今天为止,我有一个不断增长的表,有4300万行。我需要每天用另一个较小的数据集连接这个表

我的集群配置是

Nodes : 3  
Memory : 162 GB in total - 54GB per node  
Total Cores : 24
问题:
1.对于批处理作业-如何每天将这个大表与较小的数据集连接起来?
2.对于Spark Streaming,实时连接这两个表的最佳方式是什么

我的想法:
1.为此使用广播变量-与大表相比,较小的数据集是“小”的,但不足以容纳内存。
2.分块处理数据-我不知道怎么做

我正在寻找一些想法,以便从可用的Spark节点以最有效的方式实现我的目标。

欢迎提出任何建议或想法

您的原始数据存储是什么?如果使用dataframe连接,则将始终广播小数据集。数据以Cassandra DB.的形式显示。。是的,我在较小的集合上使用Dataframe。我需要将这个较小集合的DF与来自Cassandra的较大数据集连接起来。到目前为止,我一直在较小的集合上使用joinWithCassandraTable API。。但我不确定这是否是优化的解决方案。