Apache spark 使用master=local[*]在本地计算机上运行Spark并调用.collect方法_Apache Spark

Apache spark 使用master=local[*]在本地计算机上运行Spark并调用.collect方法

apache-spark

Apache spark 使用master=local[*]在本地计算机上运行Spark并调用.collect方法,apache-spark,Apache Spark,我需要一些帮助来理解Spark网站上的文档：另一种常见习惯用法是尝试使用RDD.foreach（println）或RDD.map（println）打印RDD的元素。[1类]在一台机器上，这将生成预期输出并打印所有RDD元素。[2类]但是，在集群模式下，执行器调用的标准输出现在正在写入执行器的标准输出我在本地运行spark（EclipseIDE中有local[*]）连接到staging Cassandra（在多个节点上运行）属于第一类还是第二类感谢您的帮助您没有向集群提交代码，因此您的代码

我需要一些帮助来理解Spark网站上的文档：

另一种常见习惯用法是尝试使用RDD.foreach（println）或RDD.map（println）打印RDD的元素。[1类]在一台机器上，这将生成预期输出并打印所有RDD元素。[2类]但是，在集群模式下，执行器调用的标准输出现在正在写入执行器的标准输出

我在本地运行spark（EclipseIDE中有local[*]）连接到staging Cassandra（在多个节点上运行）属于第一类还是第二类

感谢您的帮助

您没有向集群提交代码，因此您的代码是第一类

在此上下文中，spark集群和cassandra集群不相关。“收集”将数据从spark executor节点发送到spark driver节点。“collect”对数据源（即cassandra）一无所知。在本地模式下运行时，执行器与驱动程序在同一个JVM中运行，您将在控制台中看到所有输出。即使我使用本地[*]？我的笔记本电脑有4个核心。因此，它应该使用所有4个核心，即4个执行者/工作者。这意味着它是一个集群。不是吗？不是。一个集群意味着多台机器。您的执行者和驱动程序仍然在“一台机器”上，就像文档中所说的那样