Apache spark Spark中多个尺寸的连接方法_Apache Spark_Apache Spark Sql

Apache spark Spark中多个尺寸的连接方法

apache-spark

Apache spark Spark中多个尺寸的连接方法,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我需要有关使用Spark将维度信息与事务数据连接起来的帮助我有大约200列的数据存储在拼花地板文件中。其中大约有100个是维度的ID。在总维度中，值在关系数据库中使用大约200GB，并且值随时间变化相当快如何在聚合期间将这些维度连接到事务数据。聚合脚本是动态的，它们可以变化，例如，可以使用20个维度，也可以仅使用一个维度。我可以将所有维度值加载到hdfs，并进行连接。但是进行大量连接是很慢的在配置单元中，我曾经使用自定义UDF，这些自定义UDF从sql数据库维度值中检索特定维度id。UDF

我需要有关使用Spark将维度信息与事务数据连接起来的帮助

我有大约200列的数据存储在拼花地板文件中。其中大约有100个是维度的ID。在总维度中，值在关系数据库中使用大约200GB，并且值随时间变化相当快

如何在聚合期间将这些维度连接到事务数据。聚合脚本是动态的，它们可以变化，例如，可以使用20个维度，也可以仅使用一个维度。我可以将所有维度值加载到hdfs，并进行连接。但是进行大量连接是很慢的

在配置单元中，我曾经使用自定义UDF，这些自定义UDF从sql数据库维度值中检索特定维度id。UDF中使用了本地番石榴缓存，因此，如果值计数未超过缓存限制，则每个映射器/还原器OFTEN只会发出一个请求。在Spark中使用这些udf而不进行任何修改会显著降低查询的性能。我可以尝试用spark UDF重写它，但我不知道它是否值得尝试？可能这种方法不适用于spark

使用spark执行此操作的常用方法是什么

值得一试spark udf&spark joins你试过吗？如果你已经试过了？结果如何？清楚/具体地说明测试表和需要达到的条件。它应该是可核查的。