Apache spark 将数据从hdfs发送到特定机器_Apache Spark_Hadoop_Hdfs_Distributed Computing

Apache spark 将数据从hdfs发送到特定机器

apache-spark hadoop

Apache spark 将数据从hdfs发送到特定机器,apache-spark,hadoop,hdfs,distributed-computing,Apache Spark,Hadoop,Hdfs,Distributed Computing,我有一个大文件存储在HDFS中，在最后一列中，我有一个机器地址，我想将每一行发送到ap地址，并将其存储在一个文本文件中（在本地文件系统上，而不是HDFS上），我该怎么做？我找不到在spark或hadoop中实现它的方法输入文件的示例： attr1 attr2 ..attrN 192.168.40.5 attr1 attr2 ..attrN 192.168.40.19 我没有找到使用hadoop或spark的方法，因为你无法告诉那些框架将数据发送到哪里，但我找到了一种方法来获得我想要的

我有一个大文件存储在HDFS中，在最后一列中，我有一个机器地址，我想将每一行发送到ap地址，并将其存储在一个文本文件中（在本地文件系统上，而不是HDFS上），我该怎么做？我找不到在spark或hadoop中实现它的方法

输入文件的示例：

attr1  attr2 ..attrN  192.168.40.5
attr1  attr2 ..attrN  192.168.40.19

我没有找到使用hadoop或spark的方法，因为你无法告诉那些框架将数据发送到哪里，但我找到了一种方法来获得我想要的结果，步骤如下：

将字符串RDD转换为key/val RDD，其中key是ip，然后按key将其分组

将每个项目保存在HDFS上的单独文件中（这会有所帮助）

创建一个python脚本，用于为每台机器执行带有适当参数的

hadoop fs-copyToLocal