pyspark用regex替换regex
我正在尝试将正则表达式(在本例中是一个数字空格)替换为 我有一个Spark数据框,它包含一个字符串列。我想用逗号替换正则表达式(空格加数字),而不丢失数字。我尝试了这两种方法,但都没有成功: df.选择(“A”,f.regexp_替换(f.col(“A”),“\s+[0-9]”, )。别名(“替换”)) df.选择(“A”,f.regexp_替换(f.col(“A”),“\s+[0-9],”\s+[0-9], )。别名(“替换”))pyspark用regex替换regex,pyspark,Pyspark,我正在尝试将正则表达式(在本例中是一个数字空格)替换为 我有一个Spark数据框,它包含一个字符串列。我想用逗号替换正则表达式(空格加数字),而不丢失数字。我尝试了这两种方法,但都没有成功: df.选择(“A”,f.regexp_替换(f.col(“A”),“\s+[0-9]”, )。别名(“替换”)) df.选择(“A”,f.regexp_替换(f.col(“A”),“\s+[0-9],”\s+[0-9], )。别名(“替换”)) 感谢您的帮助 您需要的是另一个函数,regex\u extra
感谢您的帮助 您需要的是另一个函数,regex\u extract 所以,你必须分割正则表达式,得到你需要的部分。可能是这样的:
df.select("A", f.regexp_extract(f.col("A"), "(\s+)([0-9])", 2).alias("replaced"))
一些示例输入/输出可能会有所帮助。你能用数据详细说明这个例子吗。实际值是多少?您希望从中得到什么。的可能重复项