pySpark将camelCase字符串拆分为两个字符串

pySpark将camelCase字符串拆分为两个字符串,pyspark,Pyspark,我正在尝试使用pySpark将camelCase字符串拆分为两个字符串,基本上与Python中的操作相同: re.sub(r'([a-z](?=[A-Z])|[A-Z](?=[A-Z][a-z]))', r'\1 ', 'this is a teSt') 我得到的最接近的方法是使用regexp\u replace,使用类似以下的内容: .withColumn('split_camelcase', regexp_replace('stringColumn', r'([a-z](?=[A-Z])|

我正在尝试使用pySpark将camelCase字符串拆分为两个字符串,基本上与Python中的操作相同:

re.sub(r'([a-z](?=[A-Z])|[A-Z](?=[A-Z][a-z]))', r'\1 ', 'this is a teSt')
我得到的最接近的方法是使用regexp\u replace,使用类似以下的内容:

.withColumn('split_camelcase', regexp_replace('stringColumn', r'([a-z](?=[A-Z])|[A-Z](?=[A-Z][a-z]))', r'\1 '))

但是,尽管输出在驼峰大小写上可以很好地拆分,但它将第一个单词的最后一个字母替换为1。

我找不到将
\1
与spark一起使用的方法。它不认识它。使用自定义项怎么样?你考虑过了吗?