Spark Regexp：基于日期拆分列_Regex_Scala_Apache Spark

Spark Regexp：基于日期拆分列

regex scala apache-spark

Spark Regexp：基于日期拆分列,regex,scala,apache-spark,Regex,Scala,Apache Spark,在我的数据框中有一个名为“data”的列，如下所示： {“blah:“blah”，“blah”：“blah”“”17年7月10日服务我想将其分为三个不同的列，如下所示： col1:{“诸如此类”，“诸如此类”：“诸如此类” col2:10/7/17 col3：服务我尝试过这种方法： val separate=df.withColumn（“col1”，regexp|u extract（$“data”），“（/（0[1-9]|[12][0-9]|[3[01]）[-\/（19 | 20）\d\d

在我的数据框中有一个名为“data”的列，如下所示：

{“blah:“blah”，“blah”：“blah”“”17年7月10日服务

我想将其分为三个不同的列，如下所示：

col1:{“诸如此类”，“诸如此类”：“诸如此类”
col2:10/7/17
col3：服务

我尝试过这种方法：

val separate=df.withColumn（“col1”，regexp|u extract（$“data”），“（/（0[1-9]|[12][0-9]|[3[01]）[-\/（19 | 20）\d\d/）”，1）
.withColumn（“col2”，regexp|u extract（$”data“，”（/（0[1-9]| 1[012]）[-\/.]（0[1-9]|[12][0-9]| 3[01]）[-\/.]（19 | 20）\d/），2））

但是这个正则表达式并不能真正让我通过这扇门。我觉得我错过了一些关于正则表达式操作符在Spark中如何工作的信息。有什么想法吗

非常感谢！！：）

编辑列的规则：

col1：在日期值之前
col2：日期值
col3：在datevalue之后

```
col1
```
：匹配直到找到最后一个
```
“
```
```
col2
```
：匹配日期
```
col3
```
：字符串的其余部分

/(.+")(\d{1,2}\/\d{1,2}\/\d{1,2})(.+)/

regexp\u extract（）

regexp_extract($"data", "(.+\")(\\d{1,2}\\/\\d{1,2}\\/\\d{1,2})(.+)", N)

val fixed = df.withColumn("left", regexp_extract($"data", "(.+\")(\\d{1,2}\\/\\d{1,2}\\/\\d{1,2})(.+)", 1)).
  withColumn("middle", regexp_extract($"data", "(.+\")(\\d{1,2}\\/\\d{1,2}\\/\\d{1,2})(.+)", 2)).
  withColumn("right", regexp_extract($"data", "(.+\")(\\d{1,2}\\/\\d{1,2}\\/\\d{1,2})(.+)", 3))!

col

col1

“

col2

col3

regexp\u extract（$“data”，“（.+\”）（\\d）吗{1,2}\\\/\\d{1,2}\\/\\d{1,2}）（.+）”，1）

“以后，您必须将正则表达式中的

\”

替换为：

？

，因此：

（.+？）

将与json匹配。

val fixed = df.withColumn("left", regexp_extract($"data", "(.+\")(\\d{1,2}\\/\\d{1,2}\\/\\d{1,2})(.+)", 1)).
  withColumn("middle", regexp_extract($"data", "(.+\")(\\d{1,2}\\/\\d{1,2}\\/\\d{1,2})(.+)", 2)).
  withColumn("right", regexp_extract($"data", "(.+\")(\\d{1,2}\\/\\d{1,2}\\/\\d{1,2})(.+)", 3))!