Python 如何一次转换多个Spark dataframe列类型？_Python_Apache Spark_Dataframe_Pyspark_Apache Spark Sql - Fatal编程技术网

Python 如何一次转换多个Spark dataframe列类型？

python apache-spark dataframe pyspark

Python 如何一次转换多个Spark dataframe列类型？,python,apache-spark,dataframe,pyspark,apache-spark-sql,Python,Apache Spark,Dataframe,Pyspark,Apache Spark Sql,我的Spark数据框中有1000列。我在下面有一个函数来逐个转换列类型。但我希望能够同时将所有列类型转换为double类型。下面的代码对于一次处理一列非常有用 def convertcolumn(df, name, new_type): df_1 = df.withColumnRenamed(name, "swap") return df_1.withColumn(name, df_1["swap"].cast(new_type)).drop("swap") 例如，可以折叠柱：

我的Spark数据框中有1000列。我在下面有一个函数来逐个转换列类型。但我希望能够同时将所有列类型转换为double类型。下面的代码对于一次处理一列非常有用

def convertcolumn(df, name, new_type):
    df_1 = df.withColumnRenamed(name, "swap")
    return df_1.withColumn(name, df_1["swap"].cast(new_type)).drop("swap")

例如，可以折叠柱：

from functools import reduce

mapping = [("x", "double"), ("y", "integer")]
df = sc.parallelize([("1.0", "1", "foo")]).toDF(["x", "y", "z"])
reduce(lambda df, kv: convertcolumn(*(df, ) + kv), mapping, df)

或者只需构建表达式列表，然后

选择：
from pyspark.sql.functions import col

mapping_dict = dict(mapping)

exprs = [col(c).cast(mapping[c]) if c in mapping_dict else c for c in df.columns]
df.select(*exprs)

@谢谢你的回复。我已经在使用spark 1.6.3（pyspark），但仍然面临这个问题。我的代码花了3个多小时，仍然没有完成。请给出一些建议。1.6中pyspark ml.pipeline中的ThanksAlso没有setCheckpointInterval参数。




[apache spark]相关文章推荐



                                                        
Apache spark Spark Sql RegisterEmptable和registerDataFrameAsTable的差异
apache-spark 
Apache spark 使用concat时的列名
apache-spark 
Apache spark 通过Mesos dispatcher提交作业时，Mesos上的Spark作业不工作
apache-spark 
Apache spark spark submit找不到python脚本
apache-spark 
Apache spark pyspark.mllib DenseMatrix乘法
apache-sparkpyspark 
Apache spark 如何使用spark筛选配置单元中的记录
apache-sparkhive 
Apache spark Pyspark：如何将现有非空列的元组列表作为dataframe中的列值之一返回
apache-sparkpyspark 
Apache spark 用于在AWS S3中处理的Apache spark过滤文件
apache-sparkamazon-s3 
Apache spark 将数据流转换为数据帧
apache-sparkapache-kafka 
Apache spark 如何使用聚合在配置单元中透视数据
apache-sparkhadoophive 
Apache spark Spark作业优化：有没有办法调整连接过多的Spark作业
apache-spark 
Apache spark Apache Spark如何处理内存中不适合的数据？
apache-spark 
Apache spark 使用pyspark如何拒绝csv文件中的坏（格式错误）记录并将这些被拒绝的记录保存到新文件中
apache-sparkpyspark 
Apache spark zeppelin java.lang.OutOfMemoryError:超出GC开销限制
apache-spark 
Apache spark 在Spark中与groupBy一起使用超前和滞后功能的可能性
apache-spark 
Apache spark 如何在中覆盖两个数据帧，得到如下结果
apache-sparkdataframepyspark 
Apache spark Spark writestream如何知道输入流中出现了新的内容，现在它必须进行写入？
apache-spark 
Apache spark 触发流无法写入hdfs路径
apache-sparkhadoop 
Apache spark 使用Nifi阅读多个来源，在卡夫卡中分组主题，并使用Spark订阅
apache-sparkapache-kafkaapache-nifi 
Apache spark 如何确保在从配置单元外部表查询数据时只查询一次？
apache-sparkhive 
                                       





随机文章推荐



                                                        
umbraco中的域名列表
umbraco 
在umbraco azure上使用usercontrol时出错
umbraco 
如何在Umbraco 4.8中实施global.asax
umbraco 
umbraco如何以编程方式更新多个前置值
umbraco 
Umbraco-获取节点/组中使用的所有标记
umbraco 
Umbraco 7物业级别的访问权
umbraco 
Umbraco后台未加载包
umbraco 
Umbraco 7原型无法获取媒体udi
umbraco 
Umbraco 翁布拉科404号
umbraco 
允许用户在Umbraco输入控件的内容中输入法语、西班牙语和朝鲜语
umbraco 
Umbraco中基于代码的Serilog配置
umbraco


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
如何使用python中的opencv从相机流中准确捕获关键帧？
									Python
							 									Video
							 									Opencv
							 									Camera
							 
Python 为什么不'；相同的xlrd XLD日期是否相同？
									Python
							 
Python 数组/数据帧的numpy/pandas有效乘法
									Python
							 									Numpy
							 									Pandas
							 
在Python中使用局部变量而不是全局变量所获得的性能优势的极限？
									Python
							 									Performance
							 
Python Py2app错误
									Python
							 									Linux
							 
Python Django:密码重置反向匹配错误
									Python
							 									Django
							 									Passwords
							 
Python 如何更新dict列表中的dict项
									Python
							 									List
							 									Dictionary
							 
查找python字典中是否有不同的元素
									Python
							 									Dictionary
							 
如何在python电路中使用线程
									Python
							 									Multithreading
							 
vim:python中的higlight SQL三引号字符串
									Python
							 									Regex
							 									Vim
							 
Python 如何删除每行都为零的列，然后按其总和对所选列进行排序
									Python
							 									Pandas
							 
python（pyodbc）：从python结果运行ms-access查询到大小错误
									Python
							 
用python2编码特殊字符
									Python
							 									Python 2.7
							 									Encoding
							 									Character Encoding
							 
Python 如何过滤csv文件？
									Python
							 									Django
							 									Csv
							 
Python 使用pyplot绘制曲线
									Python
							 									Matplotlib
							 
Python 从Pandas数据框绘制线图（具有多条线）
									Python
							 									Pandas
							 									Dataframe
							 									Graph
							 
使用'在Python中创建CSV文件；对于'；或'；如果'；条件
									Python
							 									Csv
							 									For Loop
							 									If Statement
							 
Python 使用numpy将二维数组中的第n列乘以三维数组中的第n列
									Python
							 									Arrays
							 									Numpy
							 
如何调用名称以数字分隔的函数？从t1到t20调用函数的示例-Python？
									Python
							 									Python 3.x
							 									Python 2.7
							 									Selenium
							 
Python 基于FunctionTransformer的特征子集PCA学习管道
									Python
							 									Scikit Learn
							 
Python 支持向量机答案的随机性
									Python
							 									Scikit Learn
							 
Python word2vec模型的计算复杂性
									Python
							 									Nlp
							 
在Python中将文本文件作为模块导入
									Python
							 									Text
							 									Import
							 
Python frangi筛选器中的值太多，无法解包错误
									Python
							 									Opencv
							 
Python 在QGraphicscene中连续移动QGraphicsItem并检查碰撞
									Python
							 
Python 在二维多边形点阵列中查找最近的点
									Python
							 									Numpy
							 									Search
							 
Python 我可以实现随机字体选择吗？
									Python
							 
Python scipy和x27中的SIGSEV故障；八
									Python
							 									Python 3.x
							 
Python 根据用户输入计算帧数
									Python
							 									Python 3.x
							 									Algorithm
							 
Python：检查列表中的每个文件是否都存在于目录中
									Python
							 									Python 3.x
							 									Directory
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
C# 4.0
Servlets
Windows Installer
Tinymce
Ubuntu
Linker
Cors
Dom
Antlr4
Ecmascript 6
Knockout.js
Socket.io
Cypress
Swift3
Smtp
Asp.net Mvc
Activemq
Sencha Touch 2
Replace
Linux
Process
Sip
Jira
Floating Point
Netlogo
Kubernetes
Node.js
Xml
Join
Authentication
Cloud
Material Ui
Pip
Opengl
Spring Cloud
Wpf
Prometheus
Iphone
Air
Gremlin
Three.js
Io
Swift2
Rabbitmq
Scikit Learn
Glassfish
Office365
Random
Smalltalk
Class
Html
Spring Batch
Plsql
Actionscript 3
Calendar
Kernel
Amp Html
Jmeter
Selenium Webdriver
Coffeescript
Quickbooks
File Io
.net 4.0
Validation
Concurrency
Optimization
Javafx
Core Data
Ip
Virtual Machine
Forms
Cassandra
Graphql
Recursion
Filter
Azure Data Factory
Ibm Mq
Pagination
Uitableview
Mapbox
Log4net
Verilog
Clojure
Tsql
Appium
Intellij Idea
Sms
Gwt
Mongodb
Syntax
Bazel
Interface
Akka
Visual C++
Indexing
Logstash
Eclipse Plugin
Pytorch
Jar
Haskell
Merge
Acumatica
Amazon Redshift
Go
Programming Languages
Microservices
Raspberry Pi
Grid
Eclipse
Service
Meteor
Cocoa Touch
Windows Store Apps
Discord.js
Pandas
Continuous Integration
Fiware
Nestjs
Seo
Configuration
Windows Runtime
Groovy
Vue.js
Internet Explorer
Applescript
Silverlight
Serialization
Umbraco
Google Bigquery
Sitecore
Office Js
Orientdb
Winapi
For Loop
Input
Openerp
Unix
Ipython
Nhibernate
Gmail
Directx
Airflow
Svn
Google Cloud Dataflow
Url
Ssh
Report
Rx Java
Version Control
C#
Blockchain
Hive
Ibm Midrange
Memory
Laravel 5
Erlang
Time
Terminal
Razor
Regex
Character Encoding
Keras
Variables
Jpa
Python 2.7
Axapta
Imagemagick
Data Binding
Computer Vision
Typescript
Prestashop
View
Java Me
Tomcat
Cmake
Xamarin.ios
Design Patterns
Jwt
Openlayers 3
Rss
Twitter
Iis
Mapping
Llvm
Loops
Url Rewriting
Sas
Xamarin.forms
Cron
Xpath
Tridion
Angular
Dns
Fullcalendar
Asp.net Mvc 5
Maven 2
Dependency Injection
Azure Sql Database
Events
Enums
Vagrant


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网