Apache spark Spark读取多记录类型的文件
全部, 我试图在spark中读取具有多种记录类型的文件,但不知道如何读取。。 如果有办法的话,有人能指出吗?还是一些现有的软件包 下面的例子-我们有一个文本文件,其中有两个单独的(可能超过2个) 记录类型:Apache spark Spark读取多记录类型的文件,apache-spark,text,apache-spark-sql,Apache Spark,Text,Apache Spark Sql,全部, 我试图在spark中读取具有多种记录类型的文件,但不知道如何读取。。 如果有办法的话,有人能指出吗?还是一些现有的软件包 下面的例子-我们有一个文本文件,其中有两个单独的(可能超过2个) 记录类型: 00X-记录姓名 00Y-记录工业、账户、州、国家 input.txt ------------ 00X|Atun|Varma 00Y|0002355|IL|USA 00X|Diya|Reddy 00Y|0002345|FL|USA sam
00X-记录姓名
00Y-记录工业、账户、州、国家
input.txt
------------
00X|Atun|Varma
00Y|0002355|IL|USA
00X|Diya|Reddy
00Y|0002345|FL|USA
sample output :
output.txt
------------
1|ATUL|VARMA|002355|USA
2|Diya|Reddy|0002345|USA
假设
Y
记录属于它前面的X
记录,并且该顺序在文件中得到保证,您可以按照以下步骤进行操作
val inputText = """00X|Atun|Varma
00Y|0002355|IL|USA
00X|Diya|Reddy
00Y|0002345|FL|USA"""
val input = inputText.split("\n").zipWithIndex.map{case (line, i) => s"$i | ${line.trim}"}.mkString("\n")
print(input)
0 | 00X|Atun|Varma
1 | 00Y|0002355|IL|USA
2 | 00X|Diya|Reddy
3 | 00Y|0002345|FL|USA
我现在可以将本文读入数据框,如下所示
注意:我正在添加显式列名。你不必也可以依赖Spark生成的那些,因为它们到目前为止毫无意义
val df = spark.read
.option("ignoreTrailingWhiteSpace", "true")
.option("ignoreLeadingWhiteSpace", "true")
.option("delimiter", "|")
.option("header", "true")
.csv(spark.sparkContext.parallelize(("line_num|record_ind|first|second|third\n"+input).split("\n")).toDS)
df.show
df.createOrReplaceTempView("df")
+--------+----------+-------+------+-----+
|line_num|record_ind| first|second|third|
+--------+----------+-------+------+-----+
| 0| 00X| Atun| Varma| null|
| 1| 00Y|0002355| IL| USA|
| 2| 00X| Diya| Reddy| null|
| 3| 00Y|0002345| FL| USA|
+--------+----------+-------+------+-----+
最后,您可以按如下方式将前一行中的每一行连接起来:
spark.sql("""select x.first first_name, x.second last_name, y.first, y.second State, y.third Country
from df x
inner join df y
on x.record_ind = '00X'
and y.record_ind = '00Y'
and y.line_num = x.line_num +1""").show
+----------+---------+-------+-----+-------+
|first_name|last_name| first|State|Country|
+----------+---------+-------+-----+-------+
| Atun| Varma|0002355| IL| USA|
| Diya| Reddy|0002345| FL| USA|
+----------+---------+-------+-----+-------+
如果可以连接任意数量的行,则记录索引必须遵循一种模式,以确定所需的自连接深度。是否没有键?如果没有,我如何知道哪个
Y
记录要加入哪个X
行?是否应将每一行连接到上一行?