如何从R中的分布式数据绘制绘图_R_Apache Spark

如何从R中的分布式数据绘制绘图

r apache-spark

如何从R中的分布式数据绘制绘图,r,apache-spark,R,Apache Spark,我正在使用R API使用spark，并掌握如何处理来自spark的数据，无论是在仅使用spark本机函数的情况下，还是在使用spark_apply（）的情况下，都需要更好地理解如何处理分区我的疑问是关于没有进行聚合的绘图，例如，我的理解是，如果在绘图之前使用group by，则不会使用所有数据。但是如果我需要做一个有1亿个点的散点图，那么这个点的数据存储在哪里呢？它仍然分布在所有节点之间吗？或者它只在一个节点上，如果后者。。。因为这个集群被冻结了吗我知道你写道没有（应该？）进行聚合，但我敢打

我正在使用R API使用spark，并掌握如何处理来自spark的数据，无论是在仅使用spark本机函数的情况下，还是在使用spark_apply（）的情况下，都需要更好地理解如何处理分区

我的疑问是关于没有进行聚合的绘图，例如，我的理解是，如果在绘图之前使用group by，则不会使用所有数据。但是如果我需要做一个有1亿个点的散点图，那么这个点的数据存储在哪里呢？它仍然分布在所有节点之间吗？或者它只在一个节点上，如果后者。。。因为这个集群被冻结了吗

我知道你写道没有（应该？）进行聚合，但我敢打赌这正是你需要和想要做的。分布式计算的要点主要是计算部分结果，很好地，分布在每个节点上。对于非常大的数据集，每个节点（通常）只能看到数据的一个子集

关于绘图：一个超过几千（更不用说1亿）点的散点图将包含大量的过度绘图。要么通过使点透明来“修复”，要么进行密度估计，要么对数据进行分块（例如，分块图或热图）。后者可以通过节点和绘图进行分布。然后，主节点可以将每个节点返回的装箱结果聚合为最终结果，并进行打印

即使有一个节点以某种方式绘制了1亿个点的散点图，您的输出格式是什么？矢量图形（如pdf/svg）将创建一个巨大的文件。光栅图形（例如jpg、png）将在打印光栅化时有效地代表您进行聚合，因此您可以使用像素大小的容器来控制它。

就您的问题而言，数据Viz始终是客户端的。仍然可以处理1亿个点，分发只涉及计算，一旦计算完成，绘图所需的所有数据将返回并在客户端绘图