Hadoop 我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置？_Hadoop_Apache Spark_Hdfs

Hadoop 我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置？

hadoop apache-spark

Hadoop 我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置？,hadoop,apache-spark,hdfs,Hadoop,Apache Spark,Hdfs,我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置？如果我使用Spark standalone cluster manager并将数据分布在HDFS群集中，Spark如何知道数据位于节点上的本地位置？Thread是一个资源管理器。它处理内存和进程，而不是HDF或数据局部性的工作因为Spark可以从HDFS源读取数据，而namenodes和datanodes负责除Thread之外的所有HDFS块数据管理，所以我相信答案是否定的，您不需要Thread。但是您已经有了

我是否需要使用Spark with Thread通过HDFS实现节点本地数据位置？

如果我使用Spark standalone cluster manager并将数据分布在HDFS群集中，Spark如何知道数据位于节点上的本地位置？

Thread是一个资源管理器。它处理内存和进程，而不是HDF或数据局部性的工作

因为Spark可以从HDFS源读取数据，而namenodes和datanodes负责除Thread之外的所有HDFS块数据管理，所以我相信答案是否定的，您不需要Thread。但是您已经有了HDFS，这意味着您已经有了Hadoop，那么为什么不利用将Spark集成到Thread中呢？

Thread是一个资源管理器。它处理内存和进程，而不是HDF或数据局部性的工作

因为Spark可以从HDFS源读取数据，而namenodes和datanodes负责除Thread之外的所有HDFS块数据管理，所以我相信答案是否定的，您不需要Thread。但是你已经有了HDFS，这意味着你有了Hadoop，那么为什么不利用将Spark集成到Thread中呢？

我的意思是，我可能错了，但我知道非Thread Spark仍然可以读写HDFS。“对于HDFS，Spark驱动程序会联系NameNode，了解包含文件或目录的各个块的数据节点（理想情况下是本地的）及其位置”运行Spark on Thread允许的其他参数可能是我的意思，我可能是错的，但我知道非Thread Spark仍然可以读取和写入HDFS。“使用HDFS时，Spark驱动程序会联系NameNode，了解包含文件或目录的各个块的数据节点（理想情况下为本地）及其位置”运行Spark on允许的其他参数可能会存在