Java Spark中的数据帧列表

Java Spark中的数据帧列表,java,apache-spark,Java,Apache Spark,建议在Spark中创建数据帧列表吗 List<Dataset<Row>> list = some method List=某种方法 方法读取x个文件以从中创建x个数据帧。这些数据帧被推送到列表中 此方法从驱动程序调用,并返回通过将数据集加入列表而创建的单个数据帧 我不知道列表将在哪里形成,在驱动程序节点还是工作节点上 建议创建数据帧列表吗?列表位于驱动程序上。执行操作时,每个入口都指向分布式的DF或驱动程序上的DF。不然怎么可能呢 很难评论DFs列表是好是坏 列表在

建议在Spark中创建数据帧列表吗

List<Dataset<Row>> list = some method 
List=某种方法
方法读取x个文件以从中创建x个数据帧。这些数据帧被推送到列表中

此方法从驱动程序调用,并返回通过将数据集加入列表而创建的单个数据帧

我不知道列表将在哪里形成,在驱动程序节点还是工作节点上


建议创建数据帧列表吗?

列表位于驱动程序上。执行操作时,每个入口都指向分布式的DF或驱动程序上的DF。不然怎么可能呢


很难评论DFs列表是好是坏

列表在驱动程序上。执行操作时,每个入口都指向分布式的DF或驱动程序上的DF。不然怎么可能呢


很难评论DFs列表是好是坏

请记住spark使用延迟执行,数据帧实际上只是执行图而不是数据(除非缓存了数据)。在这种情况下,列表将位于驱动程序上,等待您对数据帧执行操作,强制执行这些操作,例如写入数据


您正在尝试将所有这些数据帧合并在一起吗?在不确切知道您要做什么的情况下,通常最好将数据帧的总数保持在合理的数量请记住spark使用延迟执行,并且数据帧实际上只是执行图而不是数据(除非您缓存了数据)。在这种情况下,列表将位于驱动程序上,等待您对数据帧执行操作,强制执行这些操作,例如写入数据



您正在尝试将所有这些数据帧合并在一起吗?在不确切知道您要做什么的情况下,通常最好将数据帧的总数保持在合理的数量上,而不是join。不,至少可以说,这是列表中数据帧的join操作。这是用例的要求。实际上,输入文件的数量因源而异,n想法是编写一个通用代码,读取这些文件,为每个文件创建单独的数据帧,然后根据某些条件将它们连接起来。Scala示例可以在union中创建,我怀疑它与join相反。不,至少可以说,这是listOdd中数据帧的连接操作。这是用例的要求。实际上,输入文件的数量因源而异,其思想是编写一个通用代码,读取这些文件,为每个文件创建单独的数据帧,然后根据某些条件将它们连接起来。Scala的例子可以在中找到,我可以告诉你一件事,在连接所有数据帧之前,我们不会调用任何操作或收集任何数据,而在连接后,我们会调用保存操作。考虑到这种情况,你认为这是一个好主意吗?这在Spark中很正常。我可以告诉你一件事,在所有数据帧连接之前,我们不调用任何操作或收集任何数据,连接后我们调用保存操作。考虑到这种情况,你认为这是一个好主意吗?这在Spark中很正常。有多个源生成多个拼花文件。从这些拼花文件中,我们正在创建数据帧。现在假设7个源有7个文件n我正在从它们创建7个Dfs。我将所有这7只狗推到一个列表中,然后使用该列表连接所有7个数据帧,创建一个合并的df。在连接后,我正在对一些列执行一些转换,最后将数据写入拼花地板文件。这个输出文件然后加载一个雪花表*不是7只狗而是7个数据帧:为什么你这么认为?数据帧执行图?有一只狗。当然可以我不是convinced@andrewlong-当你说1k时,你到底是什么意思?有多个源生成多个拼花文件。从这些拼花文件中,我们正在创建数据帧。现在假设7个源有7个文件n我正在从它们创建7个Dfs。我将所有这7只狗推到一个列表中,然后使用该列表连接所有7个数据帧,创建一个合并的df。在连接后,我正在对一些列执行一些转换,最后将数据写入拼花地板文件。这个输出文件然后加载一个雪花表*不是7只狗而是7个数据帧:为什么你这么认为?数据帧执行图?有一只狗。当然可以我不是convinced@andrew当你说1k时,你到底是什么意思?