Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置?_Hadoop_Apache Spark_Hdfs - Fatal编程技术网

Hadoop 我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置?

Hadoop 我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置?,hadoop,apache-spark,hdfs,Hadoop,Apache Spark,Hdfs,我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置? 如果我使用Spark standalone cluster manager并将数据分布在HDFS群集中,Spark如何知道数据位于节点上的本地位置?Thread是一个资源管理器。它处理内存和进程,而不是HDF或数据局部性的工作 因为Spark可以从HDFS源读取数据,而namenodes和datanodes负责除Thread之外的所有HDFS块数据管理,所以我相信答案是否定的,您不需要Thread。但是您已经有了

我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置?

如果我使用Spark standalone cluster manager并将数据分布在HDFS群集中,Spark如何知道数据位于节点上的本地位置?

Thread是一个资源管理器。它处理内存和进程,而不是HDF或数据局部性的工作


因为Spark可以从HDFS源读取数据,而namenodes和datanodes负责除Thread之外的所有HDFS块数据管理,所以我相信答案是否定的,您不需要Thread。但是您已经有了HDFS,这意味着您已经有了Hadoop,那么为什么不利用将Spark集成到Thread中呢?

Thread是一个资源管理器。它处理内存和进程,而不是HDF或数据局部性的工作


因为Spark可以从HDFS源读取数据,而namenodes和datanodes负责除Thread之外的所有HDFS块数据管理,所以我相信答案是否定的,您不需要Thread。但是你已经有了HDFS,这意味着你有了Hadoop,那么为什么不利用将Spark集成到Thread中呢?

我的意思是,我可能错了,但我知道非Thread Spark仍然可以读写HDFS。“对于HDFS,Spark驱动程序会联系NameNode,了解包含文件或目录的各个块的数据节点(理想情况下是本地的)及其位置”运行Spark on Thread允许的其他参数可能是我的意思,我可能是错的,但我知道非Thread Spark仍然可以读取和写入HDFS。“使用HDFS时,Spark驱动程序会联系NameNode,了解包含文件或目录的各个块的数据节点(理想情况下为本地)及其位置”运行Spark on允许的其他参数可能会存在