Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 将Spark与HDFS一起使用时,哪种方式适合HDFS设置? 将Spark驱动程序节点设置为HDFS主节点,将Spark工作节点设置为HDFS从节点_Apache Spark_Hdfs - Fatal编程技术网

Apache spark 将Spark与HDFS一起使用时,哪种方式适合HDFS设置? 将Spark驱动程序节点设置为HDFS主节点,将Spark工作节点设置为HDFS从节点

Apache spark 将Spark与HDFS一起使用时,哪种方式适合HDFS设置? 将Spark驱动程序节点设置为HDFS主节点,将Spark工作节点设置为HDFS从节点,apache-spark,hdfs,Apache Spark,Hdfs,或 仅使用Spark worker节点来设置HDFS群集。HDFS主节点包含在这些工作节点中 p、 s:我知道HDF和Spark是独立的部分,但是在给定有限数量的节点时,有没有更好的方法在Spark上测试应用程序性能?因此,从本质上讲,我们应该避免Spark驱动程序节点上的I/O开销吗?HDFS集群应该可以从驱动程序节点访问,因此第一个选项更有意义 性能测试的设置主要取决于预期的应用程序工作负载、节点上可用的内存和其他参数,但是如果在驱动程序上运行的应用程序部分没有进行任何提升处理,那么将名称节

  • 仅使用Spark worker节点来设置HDFS群集。HDFS主节点包含在这些工作节点中
  • p、 s:我知道HDF和Spark是独立的部分,但是在给定有限数量的节点时,有没有更好的方法在Spark上测试应用程序性能?因此,从本质上讲,我们应该避免Spark驱动程序节点上的I/O开销吗?

    HDFS集群应该可以从驱动程序节点访问,因此第一个选项更有意义


    性能测试的设置主要取决于预期的应用程序工作负载、节点上可用的内存和其他参数,但是如果在驱动程序上运行的应用程序部分没有进行任何提升处理,那么将名称节点放在那里可能是有意义的。

    因此,在您的说法中,“HDFS群集应该可以从驱动程序节点访问”,如果在第二个选项中,驱动程序节点可以ssh到单独的HDFS集群中的节点,那么在这种情况下,我们可以说驱动程序节点可以访问HDFS集群吗?因此,在sparksubmit命令行中,我可以编写类似“bin/sparksubmit--class foo--master”的代码spark://spark-mster:7077 boo.jarhdfs://seperate-hdfs-master:9000/data/file. (如果我们在一个名为boo的应用程序中运行一个foo类,它需要一个hdfs文件路径作为其程序参数)spark主节点和hdfs主节点必须相同吗?