Apache spark 使用master=local[*]在本地计算机上运行Spark并调用.collect方法
我需要一些帮助来理解Spark网站上的文档: 另一种常见习惯用法是尝试使用RDD.foreach(println)或RDD.map(println)打印RDD的元素。[1类]在一台机器上,这将生成预期输出并打印所有RDD元素。[2类]但是,在集群模式下,执行器调用的标准输出现在正在写入执行器的标准输出 我在本地运行spark(EclipseIDE中有local[*])连接到staging Cassandra(在多个节点上运行)属于第一类还是第二类Apache spark 使用master=local[*]在本地计算机上运行Spark并调用.collect方法,apache-spark,Apache Spark,我需要一些帮助来理解Spark网站上的文档: 另一种常见习惯用法是尝试使用RDD.foreach(println)或RDD.map(println)打印RDD的元素。[1类]在一台机器上,这将生成预期输出并打印所有RDD元素。[2类]但是,在集群模式下,执行器调用的标准输出现在正在写入执行器的标准输出 我在本地运行spark(EclipseIDE中有local[*])连接到staging Cassandra(在多个节点上运行)属于第一类还是第二类 感谢您的帮助 您没有向集群提交代码,因此您的代码
感谢您的帮助 您没有向集群提交代码,因此您的代码是第一类在此上下文中,spark集群和cassandra集群不相关。“收集”将数据从spark executor节点发送到spark driver节点。“collect”对数据源(即cassandra)一无所知。在本地模式下运行时,执行器与驱动程序在同一个JVM中运行,您将在控制台中看到所有输出。即使我使用本地[*]?我的笔记本电脑有4个核心。因此,它应该使用所有4个核心,即4个执行者/工作者。这意味着它是一个集群。不是吗?不是。一个集群意味着多台机器。您的执行者和驱动程序仍然在“一台机器”上,就像文档中所说的那样