Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark—对多列联接的性能影响 目前我们必须考虑用例来在两个数据帧之间加入许多列(可能是20-30甚至更多),以标识要继续的新行。_Apache Spark_Apache Spark Sql - Fatal编程技术网

Apache spark Spark—对多列联接的性能影响 目前我们必须考虑用例来在两个数据帧之间加入许多列(可能是20-30甚至更多),以标识要继续的新行。

Apache spark Spark—对多列联接的性能影响 目前我们必须考虑用例来在两个数据帧之间加入许多列(可能是20-30甚至更多),以标识要继续的新行。,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,一个数据帧可以包含20万行,其他4万行,但可以保持增长 我们在集群中运行该进程,大约有40个工作节点 因此,问题不在于spark能否做到这一点,而在于能否让整个集群瘫痪 这个场景中的问题是: 集群性能如何根据要加入的列数而有所不同(重新洗牌等) 跨所有连接列划分数据帧是否可行

一个数据帧可以包含20万行,其他4万行,但可以保持增长

我们在集群中运行该进程,大约有40个工作节点

因此,问题不在于spark能否做到这一点,而在于能否让整个集群瘫痪

这个场景中的问题是:

  • 集群性能如何根据要加入的列数而有所不同(重新洗牌等)
  • 跨所有连接列划分数据帧是否可行