在python或Pyspark数据框架中使用特殊字符重命名列_Python_Pandas_Dataframe_Pyspark_Spark Dataframe

在python或Pyspark数据框架中使用特殊字符重命名列

python pandas dataframe pyspark

在python或Pyspark数据框架中使用特殊字符重命名列,python,pandas,dataframe,pyspark,spark-dataframe,Python,Pandas,Dataframe,Pyspark,Spark Dataframe,我有一个python/pyspark格式的数据帧。列具有特殊字符，如点（.）空格、括号（（））和括号{}。以他们的名义现在我想重命名列名，如果有点和空格，则用下划线替换它们，如果有（）和{}，则从列名中删除它们我已经这样做了 df1 = df.toDF(*(re.sub(r'[\.\s]+', '_', c) for c in df.columns)) 有了这个，我就可以用下划线替换点和空格，而不能做第二位，也就是说，如果（）和{}存在，就从列名中删除它们我们如何做到这一点 Python

我有一个python/pyspark格式的数据帧。列具有特殊字符，如点（.）空格、括号（（））和括号{}。以他们的名义

现在我想重命名列名，如果有点和空格，则用下划线替换它们，如果有（）和{}，则从列名中删除它们

我已经这样做了

df1 = df.toDF(*(re.sub(r'[\.\s]+', '_', c) for c in df.columns))

有了这个，我就可以用下划线替换点和空格，而不能做第二位，也就是说，如果（）和{}存在，就从列名中删除它们

我们如何做到这一点

Python3.x解决方案：

tran_tab = str.maketrans({x:None for x in list('{()}')})

df1 = df.toDF(*(re.sub(r'[\.\s]+', '_', c).translate(tran_tab) for c in df.columns))

df1 = df.toDF(*(re.sub(r'[\.\s]+', '_', c).translate(None, '(){}') for c in df.columns))

Python2.x解决方案：

tran_tab = str.maketrans({x:None for x in list('{()}')})

df1 = df.toDF(*(re.sub(r'[\.\s]+', '_', c).translate(tran_tab) for c in df.columns))

df1 = df.toDF(*(re.sub(r'[\.\s]+', '_', c).translate(None, '(){}') for c in df.columns))

如果您使用的是pyspark数据帧，可以尝试使用WithColumnRename函数重命名列。我确实尝试了我的方式，看了看并为您的更改定制了它

>>> l=[('some value1','some value2','some value 3'),('some value4','some value5','some value 6')]
>>> l_schema = StructType([StructField("col1.some valwith(in)and{around}",StringType(),True),StructField("col2.some valwith()and{}",StringType(),True),StructField("col3 some()valwith.and{}",StringType(),True)])
>>> reps=('.','_'),(' ','_'),('(',''),(')',''),('{','')('}','')
>>> rdd = sc.parallelize(l)
>>> df = sqlContext.createDataFrame(rdd,l_schema)
>>> df.printSchema()
root
 |-- col1.some valwith(in)and{around}: string (nullable = true)
 |-- col2.some valwith()and{}: string (nullable = true)
 |-- col3 some()valwith.and{}: string (nullable = true)

>>> df.show()
+------------------------+------------------------+------------------------+
|col1.some valwith(in)and{around}|col2.some valwith()and{}|col3 some()valwith.and{}|
+------------------------+------------------------+------------------------+
|             some value1|             some value2|            some value 3|
|             some value4|             some value5|            some value 6|
+------------------------+------------------------+------------------------+

>>> def colrename(x):
...    return reduce(lambda a,kv : a.replace(*kv),reps,x)
>>> for i in df.schema.names:
...    df = df.withColumnRenamed(i,colrename(i))
>>> df.printSchema()
root
 |-- col1_some_valwithinandaround: string (nullable = true)
 |-- col2_some_valwithand: string (nullable = true)
 |-- col3_somevalwith_and: string (nullable = true)

>>> df.show()
+--------------------+--------------------+--------------------+
|col1_some_valwithinandaround|col2_some_valwithand|col3_somevalwith_and|
+--------------------+--------------------+--------------------+
|                 some value1|         some value2|        some value 3|
|                 some value4|         some value5|        some value 6|
+--------------------+--------------------+--------------------+

改为使用空字符串

“

”。@Denziloe我尝试了这个

df1=mysql.toDF（*（re.Sub（r'[\.\s]+[\（）{}\s]'，''.'''，''，c）表示mysql.columns中的c））

并在下面找到了错误

回溯（最近一次调用）：File“”，第1行，在TypeError:toDF（）参数*后面必须是一个序列，not generator

我在pyspark>>>tran_tab=str.maketrans（{x:None for x in list（{（）}'）}）回溯（最近一次调用）：文件“”，第1行，在AttributeError:type对象“str”没有属性“maketrans”，我想使用配置单元支持的特殊字符来代替空格。我们如何实现这样的一列：col1.some.val{with}和val（abc）。我们如何获得col1_some_valwithand_valabcw我们用下划线替换了空格，比如说，对于空格，我想使用一个由配置单元支持的特殊字符。我们如何才能实现这一点？更改reps中的映射。