pySpark将camelCase字符串拆分为两个字符串_Pyspark

pySpark将camelCase字符串拆分为两个字符串

pyspark

pySpark将camelCase字符串拆分为两个字符串,pyspark,Pyspark,我正在尝试使用pySpark将camelCase字符串拆分为两个字符串，基本上与Python中的操作相同： re.sub(r'([a-z](?=[A-Z])|[A-Z](?=[A-Z][a-z]))', r'\1 ', 'this is a teSt') 我得到的最接近的方法是使用regexp\u replace，使用类似以下的内容： .withColumn('split_camelcase', regexp_replace('stringColumn', r'([a-z](?=[A-Z])|

我正在尝试使用pySpark将camelCase字符串拆分为两个字符串，基本上与Python中的操作相同：

re.sub(r'([a-z](?=[A-Z])|[A-Z](?=[A-Z][a-z]))', r'\1 ', 'this is a teSt')

我得到的最接近的方法是使用regexp\u replace，使用类似以下的内容：

.withColumn('split_camelcase', regexp_replace('stringColumn', r'([a-z](?=[A-Z])|[A-Z](?=[A-Z][a-z]))', r'\1 '))

但是，尽管输出在驼峰大小写上可以很好地拆分，但它将第一个单词的最后一个字母替换为1。

我找不到将

\1

与spark一起使用的方法。它不认识它。使用自定义项怎么样？你考虑过了吗？