Apache spark PySpark：当另一列值满足条件时修改列值_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark PySpark：当另一列值满足条件时修改列值

apache-spark pyspark

Apache spark PySpark：当另一列值满足条件时修改列值,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,我有一个PySpark数据框，有两列： +---+----+ | Id|Rank| +---+----+ | a| 5| | b| 7| | c| 8| | d| 1| +---+----+ 对于每一行，如果Rankcolumn大于5，我希望将Id列替换为“other” 如果我使用伪代码来解释： For row in df: if row.Rank > 5: then replace(row.Id, "other") 结果应该如

我有一个PySpark数据框，有两列：

+---+----+
| Id|Rank|
+---+----+
|  a|   5|
|  b|   7|
|  c|   8|
|  d|   1|
+---+----+

对于每一行，如果

Rank

column大于5，我希望将

Id

列替换为“other”

如果我使用伪代码来解释：

For row in df:
  if row.Rank > 5:
     then replace(row.Id, "other")

结果应该如下所示：

+-----+----+
|   Id|Rank|
+-----+----+
|    a|   5|
|other|   7|
|other|   8|
|    d|   1|
+-----+----+

你知道如何做到这一点吗？谢谢

要创建此数据帧，请执行以下操作：

df = spark.createDataFrame([('a', 5), ('b', 7), ('c', 8), ('d', 1)], ['Id', 'Rank'])

当时可以使用

，否则可以使用，如-
from pyspark.sql.functions import *

df\
.withColumn('Id_New',when(df.Rank <= 5,df.Id).otherwise('other'))\
.drop(df.Id)\
.select(col('Id_New').alias('Id'),col('Rank'))\
.show()

从@Pushkr解决方案开始，您就不能使用以下内容吗
from pyspark.sql.functions import *

df.withColumn('Id',when(df.Rank <= 5,df.Id).otherwise('other')).show()

从pyspark.sql.functions导入*
df.withColumn（'Id'，when（df.Rank nice one@Pushkr！@titiro89）您的是一个解释RDD和map用法的清晰解决方案！谢谢！它在这个示例上工作，但在我的实际数据集上，“a=df.RDD”操作产生了一系列任务并最终失败。不确定从df更改为RDD是否昂贵。
from pyspark.sql.functions import *

df.withColumn('Id',when(df.Rank <= 5,df.Id).otherwise('other')).show()




[pyspark]相关文章推荐



                                                        
Dataproc PySpark工作人员没有使用gsutil的权限
pysparkgoogle-cloud-platform 
Pyspark-保持联系的排名列
pyspark 
Pyspark-用值填充空字符串
pyspark 
pyspark从逗号分隔的值列表中创建多行
pyspark 
PySpark问题
pyspark 
Pyspark Pypark流媒体
pyspark 
将文本文件映射到键/值对，以便在pyspark中对它们进行分组
pyspark 
Pyspark 如何解决；aggregateByKey不是org.apache.spark.sql.Dataset”的成员；火花？
pyspark 
Pyspark Spark拒绝显式广播加入
pyspark 
PySpark：模拟SQL的更新
pyspark 
Pyspark计数字符串出现的次数
pyspark 
PySpark中的数据帧求和
pyspark 
PySpark模式应该以DDL格式指定为字符串文本或Schema_of_json函数的输出，而不是schemaofjson（`col1`）；
pyspark 
Pyspark N-gram计数和使用spark.ml库的唯一值
pyspark 
在PySpark中设置窗口上的联合
pyspark 
PySpark-本地系统性能
pyspark 
pyspark上的PicklingError:无法序列化对象
pyspark 
PySpark填充某些特定的缺失值
pyspark 
pySpark时间戳作为DateTime的字符串
pyspark 
Pyspark 使用不兼容的模式组合多个avro文件
pyspark 
                                       





随机文章推荐



                                                        
如何超越比较来比较按名称而不是顺序匹配列的数据文件
我有两种情况：
两个csv文件具有相同的列数，但列顺序不同。csv的第一行是标题行，正确指示列名
两个csv文件具有一些不同的列，但实际上大多数列都存在于这两个文件中。同样，csv标题行指示可以比较的列名
csv 
删除导出的CSV文件中的前导空格
csvssis 
是否可以检查csv文件中是否有来自VBA的数据？
csvfilems-accessvba 
逐行浏览CSV，查看是否有字符串
csvpowershell 
log4net CSV文件附加器自定义参数
csvlog4net 
将非结构化CSV数据加载到配置单元
csvhive 
Csv 如何使用awk拆分文本和数字
csvawk 
CSV追加普通字符串/文本行
csvpowershell 
从csv加载数据，但以不同的方式表示数据D3-水平堆叠条
csvd3.js 
批处理-Can'；我似乎无法读取CSV文件
csvparsingbatch-file 
如何删除csv文件中列内的换行符pr换行符？
csv 
在AIX上下载CSV-wget的替代方案？
csvunixcurl 
将csv导入db2
csvdb2ibm-cloud 
Csv 强制proc export为不存在的变量创建空白列
背景
csvsas 
H2数据库问题：使用CSVREAD和转换功能解释列
csv 
将csv导入sqlite3，但在导入前更改列的类型
csvsqlite 
如何通过python比较2个CSV文件的特定列
csv 
Csv SSIS读取平面文件头列
csvssis 
将csv文件拆分为多个文件
csv 
使用strconv将csv数据（[]字符串）转换为float64，然后对数据求和
csvgo


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 通过减去两个字符串格式的datetime列来计算持续时间
									Apache Spark
							 									Pyspark
							 
Apache spark 如何使用spark提交群集模式进行身份验证？
									Apache Spark
							 
Apache spark Spark多维RDD分区
									Apache Spark
							 									Pyspark
							 
Apache spark 将值与Apache Spark中以前的数据进行比较
									Apache Spark
							 
Apache spark Spark UI显示0个核心，即使在应用程序中设置核心
									Apache Spark
							 									Pyspark
							 
Apache spark 将spark事件日志写入本地文件系统而不是hdfs
									Apache Spark
							 									Filesystems
							 
Apache spark 将spark sql数据帧导出到csv时出错
									Apache Spark
							 									Pyspark
							 
Apache spark 请告诉我apache spark中这四个位置中提到的属性的优先级
									Apache Spark
							 
Apache spark 配置单元表在Tableau中不可见
									Apache Spark
							 									Tableau Api
							 
Apache spark 如何限制从RabbitMQ到spark流的消息数
									Apache Spark
							 									Rabbitmq
							 
Apache spark 使用spark dataframe进行现场数据验证
									Apache Spark
							 
Apache spark 如何使用rdd.saveAsPickleFile（输出路径）自动覆盖输出路径中的文件？
									Apache Spark
							 									Pyspark
							 
Apache spark apachespark和hadoop之间的Jar冲突
									Apache Spark
							 									Hadoop
							 
Apache spark Pyspark中的并行处理
									Apache Spark
							 									Pyspark
							 
Apache spark 读取文件时触发的分区/任务数
									Apache Spark
							 
Apache spark Pyspark的交叉验证度量
									Apache Spark
							 									Pyspark
							 
Apache spark dataframe.orderBy（rand）是否与dataframe.withColumn（“X”，rand）.orderBy（“X”）相同
									Apache Spark
							 
Apache spark 使用Spark连接器在Power Bi和Spark Thrift Server之间的连接速度非常慢
									Apache Spark
							 									Powerbi
							 
Apache spark 使用Dataproc上的Spark进行跨帐户GCS访问
									Apache Spark
							 									Google Cloud Platform
							 									Google Bigquery
							 									Google Cloud Storage
							 
Apache spark 如何在when语句中检查包括null值在内的多个条件
									Apache Spark
							 									Pyspark
							 
Apache spark Spark SQL不支持以ISO 8601格式呈现指定时区（T或F？）的时间戳
									Apache Spark
							 									Time
							 
Apache spark 如何使用from_avro标准函数的汇合模式注册表？
									Apache Spark
							 									Apache Kafka
							 
Apache spark 将MySQL语句创建为Spark SQL语句
									Apache Spark
							 									Pyspark
							 
Apache spark 运行spark submit时出错：java.lang.NoClassDefFoundError:kafka/common/TopicAndPartition
									Apache Spark
							 									Pyspark
							 									Apache Kafka
							 
Apache spark 如何基于GroupBy列的值选择列，而不知道Spark中的任何特定值
									Apache Spark
							 
Apache spark 有没有办法收集pyspark中嵌套架构中所有字段的名称
									Apache Spark
							 									Pyspark
							 
Apache spark Spark window函数，并在每个分区的每列中获取第一个和最后一个值（在窗口上聚合）
									Apache Spark
							 									Pyspark
							 
Apache spark 如何使用Spark streaming进行实时日志分析？？（附建筑图）
									Apache Spark
							 									Pyspark
							 
Apache spark java.util.NoSuchElementException:None.get Spark的show（）操作出错
									Apache Spark
							 									Pyspark
							 
Apache spark 无法同时在两个活动的Jupyter笔记本会话上加载拼花地板文件
									Apache Spark
							 									Hadoop
							 									Pyspark
							 									Jupyter Notebook
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Graph
Scikit Learn
View
Browser
Error Handling
Amazon S3
Zend Framework
Css
Google Chrome
Single Sign On
Matplotlib
Time
Drupal
File Io
Couchdb
Directory
Function
Linkedin
Asp.net Mvc 2
Numpy
Merge
Floating Point
Mqtt
Boost
Openlayers
Oracle11g
Z3
Cmd
Time Complexity
Tkinter
Zend Framework2
Vue.js
Erlang
Pyspark
Ide
Wix
Deep Learning
Scheme
Inheritance
Audio
Octave
Jvm
Npm
Cmake
Windows 8
Api
Docker
Cloud
Google Cloud Storage
Reporting Services
Parsing
Swiftui
Xamarin.forms
Django
Monitoring
Isabelle
Ios5
Wolfram Mathematica
Prometheus
Applescript
Enums
Apache Zookeeper
Machine Learning
Nativescript
3d
Compiler Construction
Stripe Payments
Speech Recognition
Kendo Ui
Arduino
Xsd
Material Ui
Jpa
D
Soap
Arm
Gulp
Pycharm
Bluetooth
Android Layout
Silverlight 4.0
Ignite
Dynamics Crm
Azure Data Factory
Firefox
Activemq
Redirect
.net
Apache Storm
Orchardcms
Jsf 2
Certificate
Redux
Nestjs
Entity Framework Core
Windows Phone 8.1
Xmpp
Reactjs
Sharepoint 2010
Cypress
Salesforce
Windows Phone 7
Corda
Webpack
Image Processing
Ssh
Windbg
Akka
Scrapy
Google Cloud Platform
Io
Playframework
Checkbox
Puppet
Vbscript
Paypal
Mips
Symfony
Linq
Doxygen
Openshift
Google Cloud Dataflow
Botframework
Pointers
Omnet++
Tensorflow
Outlook
Pascal
C
Tcl
Html5 Canvas
Hyperlink
Kubernetes
Redis
Search
Jekyll
Awk
Mongoose
Multithreading
Swift
Import
Datatables
Three.js
Smalltalk
Programming Languages
Processing
Web Crawler
Algorithm
Cordova
Parameters
Angularjs
Python Sphinx
Webrtc
Openlayers 3
Amazon Dynamodb
React Native
Types
Prolog
Ms Word
Gruntjs
Activerecord
Compression
Object
Google App Engine
Qt
Xpath
Plugins
Cucumber
Spring Cloud
Nservicebus
Lucene
Windows
Model
Dart
Artificial Intelligence
Django Models
Spring Integration
Flask
Titanium
Google Apps Script
Verilog
Transactions
Iis 7
Osgi
Office Js
Listview
Next.js
Matrix
Inno Setup
Optimization
Cron
Ansible
Google Maps
Django Rest Framework
Kdb
Swagger
Dojo
Odata
Cobol
Url
Virtual Machine


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网