Apache spark SPARK-每天将大数据集与小数据集连接起来_Apache Spark_Machine Learning_Spark Streaming

Apache spark SPARK-每天将大数据集与小数据集连接起来

apache-spark machine-learning

Apache spark SPARK-每天将大数据集与小数据集连接起来,apache-spark,machine-learning,spark-streaming,Apache Spark,Machine Learning,Spark Streaming,到今天为止，我有一个不断增长的表，有4300万行。我需要每天用另一个较小的数据集连接这个表我的集群配置是 Nodes : 3 Memory : 162 GB in total - 54GB per node Total Cores : 24 问题： 1.对于批处理作业-如何每天将这个大表与较小的数据集连接起来？ 2.对于Spark Streaming，实时连接这两个表的最佳方式是什么我的想法： 1.为此使用广播变量-与大表相比，较小的数据集是“小”的，但不足以容纳内存。 2.分块处

到今天为止，我有一个不断增长的表，有4300万行。我需要每天用另一个较小的数据集连接这个表

我的集群配置是

Nodes : 3  
Memory : 162 GB in total - 54GB per node  
Total Cores : 24

问题：
1.对于批处理作业-如何每天将这个大表与较小的数据集连接起来？
2.对于Spark Streaming，实时连接这两个表的最佳方式是什么

我的想法：
1.为此使用广播变量-与大表相比，较小的数据集是“小”的，但不足以容纳内存。
2.分块处理数据-我不知道怎么做

我正在寻找一些想法，以便从可用的Spark节点以最有效的方式实现我的目标。

欢迎提出任何建议或想法

您的原始数据存储是什么？如果使用dataframe连接，则将始终广播小数据集。数据以Cassandra DB.的形式显示。。是的，我在较小的集合上使用Dataframe。我需要将这个较小集合的DF与来自Cassandra的较大数据集连接起来。到目前为止，我一直在较小的集合上使用joinWithCassandraTable API。。但我不确定这是否是优化的解决方案。