Apache spark 将数据从hdfs发送到特定机器

Apache spark 将数据从hdfs发送到特定机器,apache-spark,hadoop,hdfs,distributed-computing,Apache Spark,Hadoop,Hdfs,Distributed Computing,我有一个大文件存储在HDFS中,在最后一列中,我有一个机器地址,我想将每一行发送到ap地址,并将其存储在一个文本文件中(在本地文件系统上,而不是HDFS上),我该怎么做?我找不到在spark或hadoop中实现它的方法 输入文件的示例: attr1 attr2 ..attrN 192.168.40.5 attr1 attr2 ..attrN 192.168.40.19 我没有找到使用hadoop或spark的方法,因为你无法告诉那些框架将数据发送到哪里,但我找到了一种方法来获得我想要的

我有一个大文件存储在HDFS中,在最后一列中,我有一个机器地址,我想将每一行发送到ap地址,并将其存储在一个文本文件中(在本地文件系统上,而不是HDFS上),我该怎么做?我找不到在spark或hadoop中实现它的方法

输入文件的示例:

attr1  attr2 ..attrN  192.168.40.5
attr1  attr2 ..attrN  192.168.40.19

我没有找到使用hadoop或spark的方法,因为你无法告诉那些框架将数据发送到哪里,但我找到了一种方法来获得我想要的结果,步骤如下:

  • 将字符串RDD转换为key/val RDD,其中key是ip,然后按key将其分组
  • 将每个项目保存在HDFS上的单独文件中(这会有所帮助)
  • 创建一个python脚本,用于为每台机器执行带有适当参数的
    hadoop fs-copyToLocal