使用pyspark dataframe从列名中删除特殊字符_Pyspark_Apache Spark Sql_Pyspark Dataframes - Fatal编程技术网

使用pyspark dataframe从列名中删除特殊字符

pyspark

使用pyspark dataframe从列名中删除特殊字符,pyspark,apache-spark-sql,pyspark-dataframes,Pyspark,Apache Spark Sql,Pyspark Dataframes,我正在尝试使用pyspark sql读取csv文件，大多数列名将具有特殊字符。我想使用pyspark dataframe删除所有列名中的特殊字符。是否有任何特定函数可用于同时删除所有列名中的特殊字符？感谢您的回复。尝试在替换上使用常规表达式I替换所有特殊字符，然后使用.toDF（） df=spark.createDataFrame([('a','b','v','d')],['._a','/b','c ','d(']) import re cols=[re.sub("(_|\.|\(|\

我正在尝试使用pyspark sql读取csv文件，大多数列名将具有特殊字符。我想使用pyspark dataframe删除所有列名中的特殊字符。是否有任何特定函数可用于同时删除所有列名中的特殊字符？感谢您的回复。

尝试在替换上使用常规表达式I
替换所有特殊字符，然后使用.toDF（）

df=spark.createDataFrame([('a','b','v','d')],['._a','/b','c ','d(']) import re cols=[re.sub("(_|\.|\(|\/)","",i) for i in df.columns] df.toDF(*cols).show() #+---+---+---+---+ #| a| b| c | d| #+---+---+---+---+ #| a| b| v| d| #+---+---+---+---+

for i,j in zip(df.columns,cols): df=df.withColumnRenamed(i,j) df.show() #+---+---+---+---+ #| a| b| c | d| #+---+---+---+---+ #| a| b| v| d| #+---+---+---+---+
示例：

df=spark.createDataFrame([('a','b','v','d')],['._a','/b','c ','d(']) import re cols=[re.sub("(_|\.|\(|\/)","",i) for i in df.columns] df.toDF(*cols).show() #+---+---+---+---+ #| a| b| c | d| #+---+---+---+---+ #| a| b| v| d| #+---+---+---+---+

for i,j in zip(df.columns,cols): df=df.withColumnRenamed(i,j) df.show() #+---+---+---+---+ #| a| b| c | d| #+---+---+---+---+ #| a| b| v| d| #+---+---+---+---+
使用.WithColumnRename（）：

df=spark.createDataFrame([('a','b','v','d')],['._a','/b','c ','d(']) import re cols=[re.sub("(_|\.|\(|\/)","",i) for i in df.columns] df.toDF(*cols).show() #+---+---+---+---+ #| a| b| c | d| #+---+---+---+---+ #| a| b| v| d| #+---+---+---+---+

for i,j in zip(df.columns,cols): df=df.withColumnRenamed(i,j) df.show() #+---+---+---+---+ #| a| b| c | d| #+---+---+---+---+ #| a| b| v| d| #+---+---+---+---+

[arrays]相关文章推荐

Arrays 将MINLOC与Fortran一起使用：赋值中的秩0和1不兼容提供错误消息的版本错误消息 arrays fortran

Arrays commodore basic 4.0中子程序的正确使用？ arrays printing

Arrays 数组比较与乘法 arrays

Arrays 计算四舍五入为整数的浮点平均值NASM arrays assembly floating-point

Arrays HQL：如何检查从regexp\u split\u到\u数组的所有VAL是否都在列表中 arrays regex

Arrays 如何让NSCoder对Swift结构数组进行编码/解码？ arrays swift serialization

Arrays 在Matlab中删除矩阵中两个边界之间的列？ arrays matlab matrix

Arrays 读取MEX文件中的4D数组 arrays matlab

Arrays 列表的Numpy数组 arrays list python-3.x numpy

Arrays AWK Mac OSX如何在同一行上打印数组键和数组值 arrays linux macos awk

Arrays 在对象或数组中存储和读取对象 arrays powershell object

Arrays 将列表导入python sql数据库 arrays list python-3.x sqlite

Arrays 序列化文件中多个浮点数组的最佳方法 arrays serialization floating-point protocol-buffers

Arrays 需要在mathematica中突出显示数组图中的某个元素 arrays plot wolfram-mathematica

Arrays Bash脚本：如果变量不是数组，${VARIABLE[number]}意味着什么？ arrays bash variables

Arrays 如何将所有数据从html表获取到控制器 arrays laravel-5

Arrays 替换此.state中的数组元素 arrays reactjs

Arrays 如何减少电子表格应用程序调用，以使范围列表的所有非隐藏行的获取速度提高10到100倍或更多？ arrays google-apps-script google-sheets

Arrays 通过bash脚本中的jq向新创建的具有相同键的json数组添加/附加对象 arrays json bash

Arrays 如何使用SQL Server解析列表的JSON列表 arrays json sql-server list

随机文章推荐

Active directory 快速确定用户帐户是否为广告组成员的最佳方法？ active-directory ldap

Active directory 允许用户仅在Active Directory中自己的OU内枚举帐户的策略 active-directory

Active directory 如何以编程方式读取Active Directory架构 active-directory ldap

Active directory 在windows server 2008 R2中创建服务帐户 active-directory service

Active directory Active Directory字段映射 active-directory

Active directory 如何在C中读取msExchMailboxSecurityDescriptor属性# active-directory

Active directory 使用LDAPImportMessageListener停用Liferay用户 active-directory ldap liferay

Active directory ：[LDAP:错误代码49-80090308:LDAPPER:DSID-0C09003A9，注释：AcceptSecurityContext错误，数据773，v1db1] active-directory ldap

Active directory 将属性/对象定义导入Active Directory（AD LDS） active-directory

Active directory Microsoft AD GUID不匹配 active-directory

Active directory 为什么拨入选项卡的某些属性存储在两个属性中？ active-directory

Active directory 在B2C内部使用B2B功能 active-directory azure-ad-b2c

Active directory 自由半径+；ldap+；谷歌认证器 active-directory ldap

Active directory Active Directory组列出一个成员用户，用户'；s的条目没有提到该组 active-directory

Active directory CentOS 7 SSSD无法创建GSSAPI加密LDAP连接 active-directory centos

Active directory 是否可以跟踪AD服务器上的所有身份验证请求？ active-directory

Active directory ActiveMQ共享访问的AD凭据 active-directory activemq

[pyspark]相关推荐

Pyspark TypeError:类型为'的对象；管道DRDD'；没有len（）
Pyspark

如何从PySpark中的spark.ml中提取模型超参数？
Pyspark

Pyspark # |2 |[2, 3] | # +-----+------------------+
Pyspark

如何使用Pyspark将数据帧保存到pickle文件
Pyspark

pyspark-如何交叉验证多个ML算法
Pyspark

Pyspark中的AggregateByKey未提供预期输出
Pyspark

pyspark将数据流传输到卡夫卡主题
Pyspark Apache Kafka

如何从不同列的PySpark数据帧中提取数组元素？
Pyspark

如何在pyspark中求和？
Pyspark

pyspark:将列转换为小写后出现withcolumn分析错误
Pyspark

Pyspark Pypark填充缺失/分组平均值错误
Pyspark

Pyspark 如何将数据帧的每一行写入/写入到不同的增量表中
Pyspark

Pyspark删除具有10个空值的列
Pyspark

如何透视pyspark流数据帧
Pyspark

异常（“storageLevel必须是pyspark.storageLevel”类型）
Pyspark

Pyspark google colab中的Py4JJavaError Py4JJavaError回溯（最近一次调用）在（） 1. ---->2 df=spark.read.parquet（“gs://tata_2/activityObf.parquet”） 3帧 /获
Pyspark Google Colaboratory

从pyspark dataframe中的数组列中删除结构
Pyspark

通过PySpark的查询执行错误-GC错误
Pyspark

基于条件映射pyspark数据帧列中字典中的值
Pyspark

如何使用pyspark将字符串格式的日期转换为日期
Pyspark

Pyspark-在读取Pyspark数据帧时，如何根据文件名中的regex模式过滤掉.gz文件
Pyspark

Pyspark mllib中梯度增强树中的类型错误
Pyspark

Pyspark 如何将Tableau/BI工具连接到Delta Lake？（不带数据块）
Pyspark Hive Tableau Api

将pyspark tfidf向量转换为数据帧
Pyspark Nlp

Tags

Javafx Amazon Ec2 Orchardcms Android Ndk Amazon Web Services Plot Ms Office Prolog Tinymce Session Nsis Fiware Certificate Ant Netlogo Clojure Webgl Instagram Glassfish Hadoop Redux Speech Recognition Delphi Swift Office365 Express Razor Random Project Management C++11 Cryptography Authentication Meteor Installation Ada Cordova Gridview Spring Cloud Pycharm Nosql Ecmascript 6 Socket.io Kdb Ibm Cloud Jdbc Fullcalendar Sockets Discord.py Keras Crystal Reports Windbg Object Bazel Verilog Tabs Ssis Autohotkey Udp Jquery Pascal X86 Clang Ipad Memory Management Routes Modelica Web Services Botframework Material Ui Struts2 Arduino Functional Programming Google Chrome Applescript Resharper Install4j Vagrant Windows 10 Module Asp Classic Snowflake Cloud Data Platform View .net Core Uwp Git Listview Orientdb Cluster Computing Iis 7 Character Encoding Powerbi Wolfram Mathematica Transactions Latex Bash Signalr Embedded Ip Logic Opencart Error Handling Geolocation Lucene Asynchronous Antlr4 Activemq Proxy Jwt Server Octave Hbase Xcode4 Opengl Erlang Maven Filesystems Wicket Asp.net Web Api Nginx Google Apps Script Asp.net Core Debian Datatables String Odoo Ruby On Rails 4 Sails.js Keycloak Design Patterns Notifications Apache Camel Io Docker Compose Visual Studio Influxdb Primefaces Coffeescript Reporting Services Spring Mvc Loops Post Javafx 2 Replace Directx Gatsby Apache Nifi C++ Odata Dll Asp.net Mvc 5 Flask Documentation Apache Spark Paypal Hybris Github Wso2 Osgi Makefile Virtualbox Stored Procedures Exception Handling Sdk Reflection Spring Security Tableau Api Ios5 Colors Matplotlib Button Sitecore Numpy Opencl Mobile Synchronization Gnuplot Html Yocto Jupyter Notebook Machine Learning Assembly Nunit Mod Rewrite Localization Macos Ffmpeg Chef Infra Terminal Breeze Linq To Sql Tree Openid Ldap Sass Iframe Sql Server 2012 Youtube Api Reference Jersey Stanford Nlp Automation

Copyright © 2024. All Rights Reserved by - Fatal编程技术网