Spark cluster-在hadoop上读/写
我想从hadoop、spark上的进程以及hadoop和elastic搜索上的wirte结果中读取数据。我几乎没有工作节点来执行此操作 Spark独立集群是否足够?或者我需要让hadoop集群使用纱线或介观吗Spark cluster-在hadoop上读/写,hadoop,apache-spark,elasticsearch,yarn,Hadoop,Apache Spark,elasticsearch,Yarn,我想从hadoop、spark上的进程以及hadoop和elastic搜索上的wirte结果中读取数据。我几乎没有工作节点来执行此操作 Spark独立集群是否足够?或者我需要让hadoop集群使用纱线或介观吗 如果独立集群模式足够,那么是否应该在所有节点上设置jar文件,而不是纱线、mesos模式?首先,您不能在Hadoop中写入数据或从Hadoop中读取数据。HDFS(Hadoop生态系统的组件)负责数据的读/写。 现在来问你的问题 是的,可以从HDFS读取数据并在spark engine中进
如果独立集群模式足够,那么是否应该在所有节点上设置jar文件,而不是纱线、mesos模式?首先,您不能在Hadoop中写入数据或从Hadoop中读取数据。HDFS(Hadoop生态系统的组件)负责数据的读/写。 现在来问你的问题
错的问题,好的答案。谢谢:)我决定在系统上使用纱线。如果是这样,这是否能够在单个hdfs上写入结果输出数据,以便它可以用于另一个输入数据?是的,一旦写入hdfs,它可以用作其他map reduce作业的输入。但是单HDF如果您指的是单输出文件,那么您需要采用单减速机,因为每个减速机创建单独的输出文件,尽管所有文件都保存在同一目录中。还有一种情况是,如果您的输出文件太大,那么它将被拆分为多个输出文件,但是您也可以通过重写RecordWriter进行控制。reduce任务的输出通常通过taskInputOutContext.write(对象,对象)写入RecordWriter。