Spark cluster-在hadoop上读/写_Hadoop_Apache Spark_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Yarn

Spark cluster-在hadoop上读/写

hadoop apache-spark

Spark cluster-在hadoop上读/写,hadoop,apache-spark,elasticsearch,yarn,Hadoop,Apache Spark,elasticsearch,Yarn,我想从hadoop、spark上的进程以及hadoop和elastic搜索上的wirte结果中读取数据。我几乎没有工作节点来执行此操作 Spark独立集群是否足够？或者我需要让hadoop集群使用纱线或介观吗如果独立集群模式足够，那么是否应该在所有节点上设置jar文件，而不是纱线、mesos模式？首先，您不能在Hadoop中写入数据或从Hadoop中读取数据。HDFS（Hadoop生态系统的组件）负责数据的读/写。现在来问你的问题是的，可以从HDFS读取数据并在spark engine中进

我想从hadoop、spark上的进程以及hadoop和elastic搜索上的wirte结果中读取数据。我几乎没有工作节点来执行此操作

Spark独立集群是否足够？或者我需要让hadoop集群使用纱线或介观吗

如果独立集群模式足够，那么是否应该在所有节点上设置jar文件，而不是纱线、mesos模式？

首先，您不能在Hadoop中写入数据或从Hadoop中读取数据。HDFS（Hadoop生态系统的组件）负责数据的读/写。现在来问你的问题

是的，可以从HDFS读取数据并在spark engine中进行处理，然后将输出写入HDFS

Thread、mesos和spark standalone都是集群管理器，您可以使用它们中的任何一个来管理集群中的资源，而这与hadoop无关。但由于您希望从HDFS读取和写入数据，所以需要在集群上安装HDFS，因此最好在所有节点上安装hadoop，因为所有节点上也会安装HDFS。现在，无论您想使用纱线、mesos还是spark standalone，这都是您的选择，所有这些都将与HDFS配合使用，我本人使用spark standalone进行集群管理

不清楚您正在谈论哪些jar文件，但我假设它将是spark的，然后是的，您需要在每个节点上设置spark jar的路径，以便在spark运行时不会出现路径冲突

错的问题，好的答案。谢谢：）我决定在系统上使用纱线。如果是这样，这是否能够在单个hdfs上写入结果输出数据，以便它可以用于另一个输入数据？是的，一旦写入hdfs，它可以用作其他map reduce作业的输入。但是单HDF如果您指的是单输出文件，那么您需要采用单减速机，因为每个减速机创建单独的输出文件，尽管所有文件都保存在同一目录中。还有一种情况是，如果您的输出文件太大，那么它将被拆分为多个输出文件，但是您也可以通过重写RecordWriter进行控制。reduce任务的输出通常通过taskInputOutContext.write（对象，对象）写入RecordWriter。