Apache spark Spark—对多列联接的性能影响 目前我们必须考虑用例来在两个数据帧之间加入许多列(可能是20-30甚至更多),以标识要继续的新行。
一个数据帧可以包含20万行,其他4万行,但可以保持增长 我们在集群中运行该进程,大约有40个工作节点 因此,问题不在于spark能否做到这一点,而在于能否让整个集群瘫痪 这个场景中的问题是:Apache spark Spark—对多列联接的性能影响 目前我们必须考虑用例来在两个数据帧之间加入许多列(可能是20-30甚至更多),以标识要继续的新行。,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,一个数据帧可以包含20万行,其他4万行,但可以保持增长 我们在集群中运行该进程,大约有40个工作节点 因此,问题不在于spark能否做到这一点,而在于能否让整个集群瘫痪 这个场景中的问题是: 集群性能如何根据要加入的列数而有所不同(重新洗牌等) 跨所有连接列划分数据帧是否可行