Apache spark 使用pyspark解析非结构化数据
我是新手。我正在尝试用以下格式解析非结构化数据 整个数据集在一行中 每一行/记录由一个特殊字符~$|分隔,记录的每一列由制表符空间分隔 那么我如何解析它并将其转换为数据帧呢Apache spark 使用pyspark解析非结构化数据,apache-spark,parsing,pyspark,raw-data,Apache Spark,Parsing,Pyspark,Raw Data,我是新手。我正在尝试用以下格式解析非结构化数据 整个数据集在一行中 每一行/记录由一个特殊字符~$|分隔,记录的每一列由制表符空间分隔 那么我如何解析它并将其转换为数据帧呢 Raj India 1000 ~$| John Canada 2000 ~$| Steve USA 3000 ~$| Jason USA 4000 使用spark.read.text()方法并在选项中保留自定义lineSep spark.read.option("lineSep", '~$|').tex
Raj India 1000 ~$| John Canada 2000 ~$| Steve USA 3000 ~$| Jason USA 4000
使用spark.read.text()
方法并在选项中保留自定义lineSep
spark.read.option("lineSep", '~$|').text('<filepath>').withColumn("value",regexp_replace(col("value"),'\n','')).show()
#+------------------+
#| value|
#+------------------+
#| Raj India 1000 |
#| John Canada 2000 |
#| Steve USA 3000 |
#| Jason USA 4000|
#+------------------+
spark.read.option(“lineSep”和“~$”).text(“”).withColumn(“value”),regexp\u replace(col(“value”),“\n”和“”)).show()
#+------------------+
#|价值观|
#+------------------+
#|印度拉吉1000|
#|约翰加拿大2000|
#|史蒂夫美国3000|
#|杰森美国4000|
#+------------------+
创建数据帧后,使用value column上的拆分
函数,使用.getItem
,element\u at
函数为数据帧创建新列