Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用master=local[*]在本地计算机上运行Spark并调用.collect方法_Apache Spark - Fatal编程技术网

Apache spark 使用master=local[*]在本地计算机上运行Spark并调用.collect方法

Apache spark 使用master=local[*]在本地计算机上运行Spark并调用.collect方法,apache-spark,Apache Spark,我需要一些帮助来理解Spark网站上的文档: 另一种常见习惯用法是尝试使用RDD.foreach(println)或RDD.map(println)打印RDD的元素。[1类]在一台机器上,这将生成预期输出并打印所有RDD元素。[2类]但是,在集群模式下,执行器调用的标准输出现在正在写入执行器的标准输出 我在本地运行spark(EclipseIDE中有local[*])连接到staging Cassandra(在多个节点上运行)属于第一类还是第二类 感谢您的帮助 您没有向集群提交代码,因此您的代码

我需要一些帮助来理解Spark网站上的文档:

另一种常见习惯用法是尝试使用RDD.foreach(println)或RDD.map(println)打印RDD的元素。[1类]在一台机器上,这将生成预期输出并打印所有RDD元素。[2类]但是,在集群模式下,执行器调用的标准输出现在正在写入执行器的标准输出

我在本地运行spark(EclipseIDE中有local[*])连接到staging Cassandra(在多个节点上运行)属于第一类还是第二类


感谢您的帮助

您没有向集群提交代码,因此您的代码是第一类

在此上下文中,spark集群和cassandra集群不相关。“收集”将数据从spark executor节点发送到spark driver节点。“collect”对数据源(即cassandra)一无所知。在本地模式下运行时,执行器与驱动程序在同一个JVM中运行,您将在控制台中看到所有输出。即使我使用本地[*]?我的笔记本电脑有4个核心。因此,它应该使用所有4个核心,即4个执行者/工作者。这意味着它是一个集群。不是吗?不是。一个集群意味着多台机器。您的执行者和驱动程序仍然在“一台机器”上,就像文档中所说的那样