Java Spark中的数据帧列表_Java_Apache Spark

Java Spark中的数据帧列表

java apache-spark

Java Spark中的数据帧列表,java,apache-spark,Java,Apache Spark,建议在Spark中创建数据帧列表吗 List<Dataset<Row>> list = some method List=某种方法方法读取x个文件以从中创建x个数据帧。这些数据帧被推送到列表中此方法从驱动程序调用，并返回通过将数据集加入列表而创建的单个数据帧我不知道列表将在哪里形成，在驱动程序节点还是工作节点上建议创建数据帧列表吗？列表位于驱动程序上。执行操作时，每个入口都指向分布式的DF或驱动程序上的DF。不然怎么可能呢很难评论DFs列表是好是坏列表在

建议在Spark中创建数据帧列表吗

List<Dataset<Row>> list = some method

List=某种方法

方法读取x个文件以从中创建x个数据帧。这些数据帧被推送到列表中

此方法从驱动程序调用，并返回通过将数据集加入列表而创建的单个数据帧

我不知道列表将在哪里形成，在驱动程序节点还是工作节点上

建议创建数据帧列表吗？

列表位于驱动程序上。执行操作时，每个入口都指向分布式的DF或驱动程序上的DF。不然怎么可能呢

很难评论DFs列表是好是坏

列表在驱动程序上。执行操作时，每个入口都指向分布式的DF或驱动程序上的DF。不然怎么可能呢

很难评论DFs列表是好是坏

请记住spark使用延迟执行，数据帧实际上只是执行图而不是数据（除非缓存了数据）。在这种情况下，列表将位于驱动程序上，等待您对数据帧执行操作，强制执行这些操作，例如写入数据

您正在尝试将所有这些数据帧合并在一起吗？在不确切知道您要做什么的情况下，通常最好将数据帧的总数保持在合理的数量请记住spark使用延迟执行，并且数据帧实际上只是执行图而不是数据（除非您缓存了数据）。在这种情况下，列表将位于驱动程序上，等待您对数据帧执行操作，强制执行这些操作，例如写入数据

您正在尝试将所有这些数据帧合并在一起吗？在不确切知道您要做什么的情况下，通常最好将数据帧的总数保持在合理的数量上，而不是join。不，至少可以说，这是列表中数据帧的join操作。这是用例的要求。实际上，输入文件的数量因源而异，n想法是编写一个通用代码，读取这些文件，为每个文件创建单独的数据帧，然后根据某些条件将它们连接起来。Scala示例可以在union中创建，我怀疑它与join相反。不，至少可以说，这是listOdd中数据帧的连接操作。这是用例的要求。实际上，输入文件的数量因源而异，其思想是编写一个通用代码，读取这些文件，为每个文件创建单独的数据帧，然后根据某些条件将它们连接起来。Scala的例子可以在中找到，我可以告诉你一件事，在连接所有数据帧之前，我们不会调用任何操作或收集任何数据，而在连接后，我们会调用保存操作。考虑到这种情况，你认为这是一个好主意吗？这在Spark中很正常。我可以告诉你一件事，在所有数据帧连接之前，我们不调用任何操作或收集任何数据，连接后我们调用保存操作。考虑到这种情况，你认为这是一个好主意吗？这在Spark中很正常。有多个源生成多个拼花文件。从这些拼花文件中，我们正在创建数据帧。现在假设7个源有7个文件n我正在从它们创建7个Dfs。我将所有这7只狗推到一个列表中，然后使用该列表连接所有7个数据帧，创建一个合并的df。在连接后，我正在对一些列执行一些转换，最后将数据写入拼花地板文件。这个输出文件然后加载一个雪花表*不是7只狗而是7个数据帧：为什么你这么认为？数据帧执行图？有一只狗。当然可以我不是convinced@andrewlong-当你说1k时，你到底是什么意思？有多个源生成多个拼花文件。从这些拼花文件中，我们正在创建数据帧。现在假设7个源有7个文件n我正在从它们创建7个Dfs。我将所有这7只狗推到一个列表中，然后使用该列表连接所有7个数据帧，创建一个合并的df。在连接后，我正在对一些列执行一些转换，最后将数据写入拼花地板文件。这个输出文件然后加载一个雪花表*不是7只狗而是7个数据帧：为什么你这么认为？数据帧执行图？有一只狗。当然可以我不是convinced@andrew当你说1k时，你到底是什么意思？