Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/neo4j/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark中多个尺寸的连接方法_Apache Spark_Apache Spark Sql - Fatal编程技术网

Apache spark Spark中多个尺寸的连接方法

Apache spark Spark中多个尺寸的连接方法,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我需要有关使用Spark将维度信息与事务数据连接起来的帮助 我有大约200列的数据存储在拼花地板文件中。其中大约有100个是维度的ID。在总维度中,值在关系数据库中使用大约200GB,并且值随时间变化相当快 如何在聚合期间将这些维度连接到事务数据。聚合脚本是动态的,它们可以变化,例如,可以使用20个维度,也可以仅使用一个维度。我可以将所有维度值加载到hdfs,并进行连接。但是进行大量连接是很慢的 在配置单元中,我曾经使用自定义UDF,这些自定义UDF从sql数据库维度值中检索特定维度id。UDF

我需要有关使用Spark将维度信息与事务数据连接起来的帮助

我有大约200列的数据存储在拼花地板文件中。其中大约有100个是维度的ID。在总维度中,值在关系数据库中使用大约200GB,并且值随时间变化相当快

如何在聚合期间将这些维度连接到事务数据。聚合脚本是动态的,它们可以变化,例如,可以使用20个维度,也可以仅使用一个维度。我可以将所有维度值加载到hdfs,并进行连接。但是进行大量连接是很慢的

在配置单元中,我曾经使用自定义UDF,这些自定义UDF从sql数据库维度值中检索特定维度id。UDF中使用了本地番石榴缓存,因此,如果值计数未超过缓存限制,则每个映射器/还原器OFTEN只会发出一个请求。在Spark中使用这些udf而不进行任何修改会显著降低查询的性能。我可以尝试用spark UDF重写它,但我不知道它是否值得尝试?可能这种方法不适用于spark


使用spark执行此操作的常用方法是什么

值得一试spark udf&spark joins你试过吗?如果你已经试过了?结果如何?清楚/具体地说明测试表和需要达到的条件。它应该是可核查的。