Apache spark 如何根据不同的记录数据创建不同的RDD_Apache Spark_Rdd

Apache spark 如何根据不同的记录数据创建不同的RDD

apache-spark

Apache spark 如何根据不同的记录数据创建不同的RDD,apache-spark,rdd,Apache Spark,Rdd,我试图基于输入文件创建不同的RDD，在前两个字节中定义了不同的记录类型输入文件已被删除 00~08-30-2018~001 01~Amwell~000048.00~by~0000~test 02~002~145~West ~23.78 99~001~004 如何基于前2个字节创建RDD val rdd = sc.textFile("yourtestdatapath") val rdd01 = rdd.filter(i => i.split("~")(0) == "01") val rd

我试图基于输入文件创建不同的RDD，在前两个字节中定义了不同的记录类型

输入文件已被删除

00~08-30-2018~001
01~Amwell~000048.00~by~0000~test
02~002~145~West ~23.78
99~001~004

如何基于前2个字节创建RDD

val rdd = sc.textFile("yourtestdatapath")
val rdd01 = rdd.filter(i => i.split("~")(0) == "01")
val rdd02 = rdd.filter(i => i.split("~")(0) == "02")

//rdd01将包含以01开头的数据 //rdd02将包含以02开头的数据

前2个字节是什么意思？你能解释一下吗？如果可能，您可以共享预期输出吗？输入文件包含以下数据：第1行有01~08-30-2018~001；第2行有01~Amwell~000048.00~by~0000~测试第3行有02~002~145~West~23.78 99~001~004以01开头的所有记录我想放入一个RDD，以02开头的所有记录我想放入另一个RDD。谢谢太多了@拉斐尔：如果你觉得答案有用，请接受