Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark读取多记录类型的文件_Apache Spark_Text_Apache Spark Sql - Fatal编程技术网

Apache spark Spark读取多记录类型的文件

Apache spark Spark读取多记录类型的文件,apache-spark,text,apache-spark-sql,Apache Spark,Text,Apache Spark Sql,全部, 我试图在spark中读取具有多种记录类型的文件,但不知道如何读取。。 如果有办法的话,有人能指出吗?还是一些现有的软件包 下面的例子-我们有一个文本文件,其中有两个单独的(可能超过2个) 记录类型: 00X-记录姓名 00Y-记录工业、账户、州、国家 input.txt ------------ 00X|Atun|Varma 00Y|0002355|IL|USA 00X|Diya|Reddy 00Y|0002345|FL|USA sam

全部,

我试图在spark中读取具有多种记录类型的文件,但不知道如何读取。。 如果有办法的话,有人能指出吗?还是一些现有的软件包

下面的例子-我们有一个文本文件,其中有两个单独的(可能超过2个) 记录类型:
00X-记录姓名
00Y-记录工业、账户、州、国家

input.txt
------------

    00X|Atun|Varma
    00Y|0002355|IL|USA
    00X|Diya|Reddy
    00Y|0002345|FL|USA
    
    sample output :
    output.txt
    ------------
    1|ATUL|VARMA|002355|USA
    2|Diya|Reddy|0002345|USA

假设
Y
记录属于它前面的
X
记录,并且该顺序在文件中得到保证,您可以按照以下步骤进行操作

  • 在添加行号值时读取文本文件:
  • 注意:我在这里读取一个字符串,您可以为您的文件修改它

    val inputText = """00X|Atun|Varma
        00Y|0002355|IL|USA
        00X|Diya|Reddy
        00Y|0002345|FL|USA"""
    
    val input = inputText.split("\n").zipWithIndex.map{case (line, i) => s"$i | ${line.trim}"}.mkString("\n")
    
    print(input)
    
    0 | 00X|Atun|Varma
    1 | 00Y|0002355|IL|USA
    2 | 00X|Diya|Reddy
    3 | 00Y|0002345|FL|USA
    
    
    我现在可以将本文读入数据框,如下所示

    注意:我正在添加显式列名。你不必也可以依赖Spark生成的那些,因为它们到目前为止毫无意义

    val df = spark.read
      .option("ignoreTrailingWhiteSpace", "true")
      .option("ignoreLeadingWhiteSpace", "true")
      .option("delimiter", "|")
      .option("header", "true")
      .csv(spark.sparkContext.parallelize(("line_num|record_ind|first|second|third\n"+input).split("\n")).toDS)
    
    
    df.show
    df.createOrReplaceTempView("df")
    
    +--------+----------+-------+------+-----+
    |line_num|record_ind|  first|second|third|
    +--------+----------+-------+------+-----+
    |       0|       00X|   Atun| Varma| null|
    |       1|       00Y|0002355|    IL|  USA|
    |       2|       00X|   Diya| Reddy| null|
    |       3|       00Y|0002345|    FL|  USA|
    +--------+----------+-------+------+-----+
    
    最后,您可以按如下方式将前一行中的每一行连接起来:

    spark.sql("""select x.first first_name, x.second last_name, y.first, y.second State, y.third Country
                 from df x
                  inner join df y
                   on x.record_ind = '00X'
                    and y.record_ind = '00Y'
                    and y.line_num = x.line_num +1""").show
    
    +----------+---------+-------+-----+-------+
    |first_name|last_name|  first|State|Country|
    +----------+---------+-------+-----+-------+
    |      Atun|    Varma|0002355|   IL|    USA|
    |      Diya|    Reddy|0002345|   FL|    USA|
    +----------+---------+-------+-----+-------+
    

    如果可以连接任意数量的行,则记录索引必须遵循一种模式,以确定所需的自连接深度。

    是否没有键?如果没有,我如何知道哪个
    Y
    记录要加入哪个
    X
    行?是否应将每一行连接到上一行?