Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何从R中的分布式数据绘制绘图_R_Apache Spark - Fatal编程技术网

如何从R中的分布式数据绘制绘图

如何从R中的分布式数据绘制绘图,r,apache-spark,R,Apache Spark,我正在使用R API使用spark,并掌握如何处理来自spark的数据,无论是在仅使用spark本机函数的情况下,还是在使用spark_apply()的情况下,都需要更好地理解如何处理分区 我的疑问是关于没有进行聚合的绘图,例如,我的理解是,如果在绘图之前使用group by,则不会使用所有数据。但是如果我需要做一个有1亿个点的散点图,那么这个点的数据存储在哪里呢?它仍然分布在所有节点之间吗?或者它只在一个节点上,如果后者。。。因为这个集群被冻结了吗 我知道你写道没有(应该?)进行聚合,但我敢打

我正在使用R API使用spark,并掌握如何处理来自spark的数据,无论是在仅使用spark本机函数的情况下,还是在使用spark_apply()的情况下,都需要更好地理解如何处理分区


我的疑问是关于没有进行聚合的绘图,例如,我的理解是,如果在绘图之前使用group by,则不会使用所有数据。但是如果我需要做一个有1亿个点的散点图,那么这个点的数据存储在哪里呢?它仍然分布在所有节点之间吗?或者它只在一个节点上,如果后者。。。因为这个集群被冻结了吗

我知道你写道没有(应该?)进行聚合,但我敢打赌这正是你需要和想要做的。分布式计算的要点主要是计算部分结果,很好地,分布在每个节点上。对于非常大的数据集,每个节点(通常)只能看到数据的一个子集

关于绘图:一个超过几千(更不用说1亿)点的散点图将包含大量的过度绘图。要么通过使点透明来“修复”,要么进行密度估计,要么对数据进行分块(例如,分块图或热图)。后者可以通过节点和绘图进行分布。然后,主节点可以将每个节点返回的装箱结果聚合为最终结果,并进行打印


即使有一个节点以某种方式绘制了1亿个点的散点图,您的输出格式是什么?矢量图形(如pdf/svg)将创建一个巨大的文件。光栅图形(例如jpg、png)将在打印光栅化时有效地代表您进行聚合,因此您可以使用像素大小的容器来控制它。

就您的问题而言,数据Viz始终是客户端的。仍然可以处理1亿个点,分发只涉及计算,一旦计算完成,绘图所需的所有数据将返回并在客户端绘图