Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Spark cluster-在hadoop上读/写_Hadoop_Apache Spark_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Yarn - Fatal编程技术网 elasticsearch,yarn,Hadoop,Apache Spark,elasticsearch,Yarn" /> elasticsearch,yarn,Hadoop,Apache Spark,elasticsearch,Yarn" />

Spark cluster-在hadoop上读/写

Spark cluster-在hadoop上读/写,hadoop,apache-spark,elasticsearch,yarn,Hadoop,Apache Spark,elasticsearch,Yarn,我想从hadoop、spark上的进程以及hadoop和elastic搜索上的wirte结果中读取数据。我几乎没有工作节点来执行此操作 Spark独立集群是否足够?或者我需要让hadoop集群使用纱线或介观吗 如果独立集群模式足够,那么是否应该在所有节点上设置jar文件,而不是纱线、mesos模式?首先,您不能在Hadoop中写入数据或从Hadoop中读取数据。HDFS(Hadoop生态系统的组件)负责数据的读/写。 现在来问你的问题 是的,可以从HDFS读取数据并在spark engine中进

我想从hadoop、spark上的进程以及hadoop和elastic搜索上的wirte结果中读取数据。我几乎没有工作节点来执行此操作

Spark独立集群是否足够?或者我需要让hadoop集群使用纱线或介观吗


如果独立集群模式足够,那么是否应该在所有节点上设置jar文件,而不是纱线、mesos模式?

首先,您不能在Hadoop中写入数据或从Hadoop中读取数据。HDFS(Hadoop生态系统的组件)负责数据的读/写。 现在来问你的问题

  • 是的,可以从HDFS读取数据并在spark engine中进行处理,然后将输出写入HDFS

  • Thread、mesos和spark standalone都是集群管理器,您可以使用它们中的任何一个来管理集群中的资源,而这与hadoop无关。但由于您希望从HDFS读取和写入数据,所以需要在集群上安装HDFS,因此最好在所有节点上安装hadoop,因为所有节点上也会安装HDFS。现在,无论您想使用纱线、mesos还是spark standalone,这都是您的选择,所有这些都将与HDFS配合使用,我本人使用spark standalone进行集群管理

  • 不清楚您正在谈论哪些jar文件,但我假设它将是spark的,然后是的,您需要在每个节点上设置spark jar的路径,以便在spark运行时不会出现路径冲突


  • 错的问题,好的答案。谢谢:)我决定在系统上使用纱线。如果是这样,这是否能够在单个hdfs上写入结果输出数据,以便它可以用于另一个输入数据?是的,一旦写入hdfs,它可以用作其他map reduce作业的输入。但是单HDF如果您指的是单输出文件,那么您需要采用单减速机,因为每个减速机创建单独的输出文件,尽管所有文件都保存在同一目录中。还有一种情况是,如果您的输出文件太大,那么它将被拆分为多个输出文件,但是您也可以通过重写RecordWriter进行控制。reduce任务的输出通常通过taskInputOutContext.write(对象,对象)写入RecordWriter。