Apache spark Spark读取多记录类型的文件_Apache Spark_Text_Apache Spark Sql

Apache spark Spark读取多记录类型的文件

apache-spark text

Apache spark Spark读取多记录类型的文件,apache-spark,text,apache-spark-sql,Apache Spark,Text,Apache Spark Sql,全部, 我试图在spark中读取具有多种记录类型的文件，但不知道如何读取。。如果有办法的话，有人能指出吗？还是一些现有的软件包下面的例子-我们有一个文本文件，其中有两个单独的（可能超过2个）记录类型： 00X-记录姓名 00Y-记录工业、账户、州、国家 input.txt ------------ 00X|Atun|Varma 00Y|0002355|IL|USA 00X|Diya|Reddy 00Y|0002345|FL|USA sam

全部,

我试图在spark中读取具有多种记录类型的文件，但不知道如何读取。。如果有办法的话，有人能指出吗？还是一些现有的软件包

下面的例子-我们有一个文本文件，其中有两个单独的（可能超过2个）记录类型：
00X-记录姓名
00Y-记录工业、账户、州、国家

input.txt
------------

    00X|Atun|Varma
    00Y|0002355|IL|USA
    00X|Diya|Reddy
    00Y|0002345|FL|USA
    
    sample output :
    output.txt
    ------------
    1|ATUL|VARMA|002355|USA
    2|Diya|Reddy|0002345|USA

假设

记录属于它前面的

记录，并且该顺序在文件中得到保证，您可以按照以下步骤进行操作

在添加行号值时读取文本文件：

注意：我在这里读取一个字符串，您可以为您的文件修改它

val inputText = """00X|Atun|Varma
    00Y|0002355|IL|USA
    00X|Diya|Reddy
    00Y|0002345|FL|USA"""

val input = inputText.split("\n").zipWithIndex.map{case (line, i) => s"$i | ${line.trim}"}.mkString("\n")

print(input)

0 | 00X|Atun|Varma
1 | 00Y|0002355|IL|USA
2 | 00X|Diya|Reddy
3 | 00Y|0002345|FL|USA

我现在可以将本文读入数据框，如下所示

注意：我正在添加显式列名。你不必也可以依赖Spark生成的那些，因为它们到目前为止毫无意义

val df = spark.read
  .option("ignoreTrailingWhiteSpace", "true")
  .option("ignoreLeadingWhiteSpace", "true")
  .option("delimiter", "|")
  .option("header", "true")
  .csv(spark.sparkContext.parallelize(("line_num|record_ind|first|second|third\n"+input).split("\n")).toDS)


df.show
df.createOrReplaceTempView("df")

+--------+----------+-------+------+-----+
|line_num|record_ind|  first|second|third|
+--------+----------+-------+------+-----+
|       0|       00X|   Atun| Varma| null|
|       1|       00Y|0002355|    IL|  USA|
|       2|       00X|   Diya| Reddy| null|
|       3|       00Y|0002345|    FL|  USA|
+--------+----------+-------+------+-----+

最后，您可以按如下方式将前一行中的每一行连接起来：

spark.sql("""select x.first first_name, x.second last_name, y.first, y.second State, y.third Country
             from df x
              inner join df y
               on x.record_ind = '00X'
                and y.record_ind = '00Y'
                and y.line_num = x.line_num +1""").show

+----------+---------+-------+-----+-------+
|first_name|last_name|  first|State|Country|
+----------+---------+-------+-----+-------+
|      Atun|    Varma|0002355|   IL|    USA|
|      Diya|    Reddy|0002345|   FL|    USA|
+----------+---------+-------+-----+-------+

如果可以连接任意数量的行，则记录索引必须遵循一种模式，以确定所需的自连接深度。

是否没有键？如果没有，我如何知道哪个

记录要加入哪个

行？是否应将每一行连接到上一行？