Java 同时生成多个RDD
原始fileRDD由创建Java 同时生成多个RDD,java,apache-spark,rdd,Java,Apache Spark,Rdd,原始fileRDD由创建 sc.wholeTextFiles(path) fileRDD的键是文件名,值是文件内容。 当我遍历一个文件内容(值)时,我可以得到很多信息。所以我想在遍历一个文件后生成多个RDD。例如:我定义了三个类 public class Interface implements Serializable public class VPNInstance implements Serializable public class Equipment implements Ser
sc.wholeTextFiles(path)
fileRDD的键是文件名,值是文件内容。
当我遍历一个文件内容(值)时,我可以得到很多信息。所以我想在遍历一个文件后生成多个RDD。例如:我定义了三个类
public class Interface implements Serializable
public class VPNInstance implements Serializable
public class Equipment implements Serializable
使用映射操作后:
fileRDD.map(traverse function)
返回
RDD<Interface>, RDD<VPNInstance> and RDD<Equipment>
RDD、RDD和RDD
同时,。否则,我需要遍历文件内容三次以生成三个RDD
那么,是否有一种同时生成多个RDD的解决方案?当然,编写一个遍历函数,创建如下对象:
public class Record implements Serializable {
private Interface interface;
private VPNInstance vpnInstance;
private Equipment equipment;
}
映射数据集后,使用
cache()
或persist()
避免重新计算。当然,请编写一个遍历函数来创建如下对象:
public class Record implements Serializable {
private Interface interface;
private VPNInstance vpnInstance;
private Equipment equipment;
}
映射数据集后,使用cache()
或persist()
避免重新计算