Regex ApacheSpark：如何使用正则表达式将数据帧列转换为另一个数据帧？_Regex_Scala_Apache Spark

Regex ApacheSpark：如何使用正则表达式将数据帧列转换为另一个数据帧？

regex scala apache-spark

Regex ApacheSpark：如何使用正则表达式将数据帧列转换为另一个数据帧？,regex,scala,apache-spark,Regex,Scala,Apache Spark,我有Spark数据框1，共有几列：（用户ID、url、访问日期）我想将这个DF1转换为数据帧2，格式为：（user\u uuid、domain、date\u visit）我想要使用的是正则表达式来检测域并将其应用于DF1val regexpr=“”（？I）^（（https？）\/\/）（（www | wwww1）\）（[\w-\.]+）”。r 你能帮我编写代码来转换Scala中的数据帧吗？我对Spark和Scala完全陌生，语法很难理解。谢谢火花>=1.5：您可以使用regexp\u e

我有Spark数据框1，共有几列：（用户ID、url、访问日期）

我想将这个DF1转换为数据帧2，格式为：（user\u uuid、domain、date\u visit）

我想要使用的是正则表达式来检测域并将其应用于DF1

val regexpr=“”（？I）^（（https？）\/\/）（（www | wwww1）\）（[\w-\.]+）”。r

你能帮我编写代码来转换Scala中的数据帧吗？我对Spark和Scala完全陌生，语法很难理解。谢谢

火花>=1.5：

您可以使用

regexp\u extract

函数：

import org.apache.spark.sql.functions.regexp_extract

val patter: String = ??? 
val groupIdx: Int = ???

df.withColumn("domain", regexp_extract(url, pattern, groupIdx))

火花<1.5.0

定义自定义项

val pattern: scala.util.matching.Regex = ???

def getFirst(pattern: scala.util.matching.Regex) = udf(
  (url: String) => pattern.findFirstIn(url) match { 
    case Some(domain) => domain
    case None => "unknown"
  }
)

使用已定义的自定义项：

df.select(
  $"user_uuid",
  getFirst(pattern)($"url").alias("domain"),
  $"date_visit"
)

或寄存器临时表：

df.registerTempTable("df")

sqlContext.sql(s"""
  SELECT user_uuid, regexp_extract(url, '$pattern', $group_idx) AS domain, date_visit FROM df""")

用有效的Java regexp替换

pattern

，用组的索引替换

group\u id

。

“我对Spark和Scala完全陌生”这是一个目前非常重要的“给我代码”问题。你试过什么？你打算如何学习Spark/Scala？所以，当你陷入困境时，最好是自己尝试一些事情，问一些具体的问题。你应该知道，你在这里已经4年了@保罗，这确实是一个原子操作，但它无法在互联网上找到它。当你要求，比如说，正则表达式时，你不会给出丑陋的尝试，对吗？我评估了我得到的代码，发现在这里使用它毫无意义——它只是定义了一个DF，它有什么帮助？是的，我在这里已经4年了，有很多其他的经验，给我讲课可能感觉很愉快，但在这个问题上，我觉得不合适。我更相信你通过scaladoc for DataFrame找到的证据。那里没有太多的操作，返回数据帧的操作更少。如果你的问题是“如何使用

选择”，那么很明显你已经做了一些工作，而不是把它扔到墙上。我不是（故意）在讲课，但我正在尽我的一点点努力鼓励人们做必要的工作，以避免浪费其他人的时间，他们可能会阅读一个问题。我也得到了两条评论，所以看起来我并没有完全孤立于此this@TheArchetypalPaul随着时间的推移，我看到这个问题的答案帮助了至少9个人投了赞成票。这证明了我在提问之前应该“说服”谁并不重要，因为这个问题对社区是有帮助的。它奏效了，只是别忘了在“regex之前”和“after之后”之前加上。