Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用pyspark解析非结构化数据_Apache Spark_Parsing_Pyspark_Raw Data - Fatal编程技术网

Apache spark 使用pyspark解析非结构化数据

Apache spark 使用pyspark解析非结构化数据,apache-spark,parsing,pyspark,raw-data,Apache Spark,Parsing,Pyspark,Raw Data,我是新手。我正在尝试用以下格式解析非结构化数据 整个数据集在一行中 每一行/记录由一个特殊字符~$|分隔,记录的每一列由制表符空间分隔 那么我如何解析它并将其转换为数据帧呢 Raj India 1000 ~$| John Canada 2000 ~$| Steve USA 3000 ~$| Jason USA 4000 使用spark.read.text()方法并在选项中保留自定义lineSep spark.read.option("lineSep", '~$|').tex

我是新手。我正在尝试用以下格式解析非结构化数据

整个数据集在一行中

每一行/记录由一个特殊字符~$|分隔,记录的每一列由制表符空间分隔

那么我如何解析它并将其转换为数据帧呢

Raj India 1000 ~$| John Canada 2000 ~$| Steve USA 3000 ~$| Jason USA 4000
使用
spark.read.text()
方法并在选项中保留自定义
lineSep

spark.read.option("lineSep", '~$|').text('<filepath>').withColumn("value",regexp_replace(col("value"),'\n','')).show()
#+------------------+
#|             value|
#+------------------+
#|   Raj India 1000 |
#| John Canada 2000 |
#|   Steve USA 3000 |
#|    Jason USA 4000|
#+------------------+
spark.read.option(“lineSep”和“~$”).text(“”).withColumn(“value”),regexp\u replace(col(“value”),“\n”和“”)).show()
#+------------------+
#|价值观|
#+------------------+
#|印度拉吉1000|
#|约翰加拿大2000|
#|史蒂夫美国3000|
#|杰森美国4000|
#+------------------+
创建数据帧后,使用value column上的
拆分
函数,使用
.getItem
element\u at
函数为数据帧创建新列