Apache spark 如何从pyspark数据帧中删除以2K开头的记录_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark 如何从pyspark数据帧中删除以2K开头的记录

apache-spark pyspark

Apache spark 如何从pyspark数据帧中删除以2K开头的记录,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,我正在使用pyspark 3.0.1。我想从pyspark数据帧df的组列中删除行，其中记录以2K开头我的示例数据看起来像 Name Age Group John 23 1L12 Rami 32 2K18 Pat 35 1P28 在删除之后，我的最终数据帧应该如下所示 Name Age Group John 23 1L12 Pat 35 1P28 您可以使用列方法startswith进行筛选： from pyspark.sql import funct

我正在使用pyspark 3.0.1。我想从pyspark数据帧df的

组

列中删除行，其中记录以

2K

开头

我的示例数据看起来像

Name  Age Group
John   23  1L12
Rami   32  2K18
Pat    35  1P28

在删除之后，我的最终数据帧应该如下所示

Name  Age Group
John   23  1L12
Pat    35  1P28

您可以使用列方法

startswith

进行筛选：

from pyspark.sql import functions as F

df1 = df.filter(~F.col("Group").startswith("2K"))

df1.show()
#+----+---+-----+
#|Name|Age|Group|
#+----+---+-----+
#|John| 23| 1L12|
#| Pat| 35| 1P28|
#+----+---+-----+

df2 = df.filter(~df.Group.startswith("2K"))

尝试检查

startswith

：

from pyspark.sql import functions as F

df1 = df.filter(~F.col("Group").startswith("2K"))

df1.show()
#+----+---+-----+
#|Name|Age|Group|
#+----+---+-----+
#|John| 23| 1L12|
#| Pat| 35| 1P28|
#+----+---+-----+

df2 = df.filter(~df.Group.startswith("2K"))

或者像/

那样使用rlike
：
df2 = df.filter(~df.Group.rlike("^2K"))
df2 = df.filter(~df.Group.like("2K%"))

df2=df.filter（df.Groupe.substr（1，2）！=“2K”）




[pyspark]相关文章推荐



                                                        
PySpark如何在SparkSql和数据帧中使用pickle
pyspark 
Pyspark列的十分位数或其他分位数秩
pyspark 
updatestatebykey-Pyspark-Spark流媒体
pyspark 
Pyspark 统计SPARKSQL中重复的行数
pyspark 
Pyspark |使用值列表从键转换RDD>；具有键列表的值
pyspark 
Pyspark 如何处理多个关键字值，但按第一个关键字减少？
pyspark 
Pyspark 超过阈值后重置的累积总和
pyspark 
从pyspark中的所有列名中删除空格
pyspark 
从pyspark dataframe中删除具有相同值但位于不同列中的重复行
pyspark 
将列表转换为pyspark中的dataframe列
pyspark 
py4j.Py4JException:将类方法传递到pyspark中的映射时，方法_getstate___（[]）不存在
pyspark 
Pyspark：如何设置内存和内核的初始设置？
pyspark 
Pyspark 如何推断现有Spark数据帧的数据类型？
pyspark 
Pyspark 如何从CSV文件中清除数据
pyspark 
使用pyspark读取多个csv文件
pyspark 
pyspark数据帧上的复杂逻辑，包括前一行现有值以及动态生成的前一行值
pyspark 
Pyspark 如何在新的databricks connect中正确使用sql/hive变量
pyspark 
Pyspark 机器学习目标列
pyspark 
有没有办法在PySpark中进行二项回归？
pysparkstatistics 
pyspark如何检查给定的spark数据帧是否已使用inferSchema=True创建
pyspark 
                                       





随机文章推荐



                                                        
Printing 如何在Visio的多个页面上轻松打印多个图层
printing 
Printing 打印DataGridView
printing 
Printing 打印html5画布元素
printinghtml5-canvas 
Printing Birt报告无声打印
printingreport 
Printing StartDocPrinter（hPrinter，1，di）返回false
printing 
Printing 打印jpeg和tiff图像时，墨水使用是否不同。
printing 
Printing 瓦丁获得本地打印机
printingvaadin 
Printing 标签打印机的自定义纸张尺寸（Brother QL 570）
printing 
Printing 在系统对话框中看不到我的CUPS打印机
printingyocto 
Printing Photoshop：肖像模式下的A5纸张大小
printing 
Printing 打印机驱动程序-自定义纸张大小
printing 
Printing JRPrintServiceExporter使用了哪个排除属性前缀？
printingjasper-reports 
Printing 在PrintDetailedOptions中显示ContentDialog在UWP中更改
printinguwp


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 数据帧zipWithIndex
									Apache Spark
							 
Apache spark sparksqljson布尔计算
									Apache Spark
							 									Pyspark
							 
Apache spark 如何避免；“不是文件”；使用spark从HDFS读取时出现异常
									Apache Spark
							 
Apache spark pyspark连接多个条件
									Apache Spark
							 									Pyspark
							 
Apache spark 火花清理作业未运行
									Apache Spark
							 
Apache spark spark中的任务是如何分配的
									Apache Spark
							 
Apache spark 带身份验证的ipython/Jupyter笔记本电脑
									Apache Spark
							 									Jupyter Notebook
							 
Apache spark 是否有更好的界面为齐柏林飞艇添加Highcharts支持
									Apache Spark
							 									Highcharts
							 
Apache spark Spark错误：无效的日志目录/app/Spark/Spark-1.6.1-bin-hadoop2.6/work/app-201610180113-0000/3/
									Apache Spark
							 									Apache Kafka
							 
Apache spark spark save和读取HDFS上的拼花地板
									Apache Spark
							 
Apache spark DSE Spark和RStudio Sparkyr集成
									Apache Spark
							 
Apache spark 运行Spark作业以查询Kerberized集群中的配置单元HBase表
									Apache Spark
							 
Apache spark 如何将多个具有Double的CSV文件合并到具有其文件名的单个RDD中？
									Apache Spark
							 									Pyspark
							 
Apache spark 使用现有表的架构将配置单元文本格式RDD[String]解析为数据帧
									Apache Spark
							 
Apache spark 可以在Spark SQL中对组运行迭代算法吗？
									Apache Spark
							 
Apache spark 在EMR上使用Spark SQL查询粘合表时获取NullPointerException（名称为null）
									Apache Spark
							 
Apache spark 将DF转换为RDD后尝试在flatmap中应用分割方法时出现属性错误分割
									Apache Spark
							 									Pyspark
							 
Apache spark 由于洗牌，在数据帧被再次持久化后触发取消持久化数据帧
									Apache Spark
							 
Apache spark ApacheSpark：如何在Spark应用程序中加载数据？
									Apache Spark
							 
Apache spark 使用简单查询时，如何修复HiveSpark中的“org.apache.hadoop.hive.ql.metadata.HiveException”？
									Apache Spark
							 									Hadoop
							 									Hive
							 
Apache spark 增加warn-site.xml中的warn.scheduler.maximum-allocation-mb值
									Apache Spark
							 									Machine Learning
							 									Pyspark
							 
Apache spark 有没有办法清除齐柏林飞艇的记忆？
									Apache Spark
							 
Apache spark 使用python将pickle（.pck）文件转换为spark数据帧
									Apache Spark
							 
Apache spark Databricks Spark Cassandra连接引发异常：com.datastax.driver.core.exceptions.NoHostAvailableException
									Apache Spark
							 									Cassandra
							 
Apache spark spark分区大小等于HDFS块大小还是取决于所有执行器上可用的内核数？
									Apache Spark
							 									Pyspark
							 
Apache spark 在流终止的情况下，如何在spark结构化流中使用foreachBatch处理重复？
									Apache Spark
							 									Pyspark
							 
Apache spark 运行基本KPI示例时纱线节点管理器错误
									Apache Spark
							 									Hadoop
							 
Apache spark spark cluster模式下的未知后异常
									Apache Spark
							 									Kubernetes
							 
Apache spark 如何使用python（PySpark）转换spark DF？
									Apache Spark
							 									Pyspark
							 
Apache spark 使用Hadoop编程卸载包含多个不相关csv文件的文件
									Apache Spark
							 									Hadoop
							 									Hive
							 									Apache Pig
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Windows 10
For Loop
Charts
Random
Asynchronous
.net Core
Maven 2
Dataframe
Hazelcast
Sublimetext3
Web Applications
Macros
Sugarcrm
Cobol
Binary
Logic
Zend Framework2
Clojure
Influxdb
Compiler Construction
Robotframework
Google Plus
Sas
Uml
Linq
Opencart
Windows
Numpy
Firefox Addon
Postman
Npm
Drupal
Intellij Idea
Aws Lambda
Google Bigquery
Ide
Cloud Foundry
Transactions
Youtube Api
Machine Learning
Sap
Tsql
Next.js
Function
Matlab
Dll
Sql Server 2012
Ldap
Playframework
Magento
Iis
Forms
Common Lisp
Vba
Postgresql
Report
Floating Point
Responsive Design
Sails.js
Image Processing
Quickbooks
Asp.net Core
Sqlalchemy
Object
Drop Down Menu
Primefaces
Bazel
Com
Sip
Linker
Zend Framework
Cypress
Cuda
Windows Mobile
Exception Handling
Outlook
Wix
Twitter Bootstrap
Command Line
Stanford Nlp
Xampp
Permissions
Vue.js
Rdf
Oauth 2.0
Less
Coldfusion
Windows Store Apps
Air
Python 2.7
Express
Telegram
Excel
Cron
Bison
Discord.js
Bots
Scroll
Javafx 2
Hibernate
Entity Framework 4
Dns
Python
Protocol Buffers
Sass
Keras
Sdk
Web
Silverlight 4.0
Audio
Automated Tests
.htaccess
Iis 7
Xsd
Swing
Objective C
Sharepoint
String
Google Apps Script
Push Notification
Time
Dependencies
Gmail
Sharepoint 2007
Graphviz
Ms Word
Plsql
Rest
Ios
Visual Studio 2017
Ethereum
Spring Batch
Bootstrap 4
Curl
Google Colaboratory
Extjs4
Twilio
Programming Languages
Azure Service Fabric
Kendo Ui
Kdb
Asterisk
Netbeans
Go
Sitecore
Url
Http
Python Sphinx
Mapreduce
Video
Chart.js
Ansible
Statistics
Cluster Computing
Here Api
Arangodb
Webstorm
Ssl
Terminal
Combobox
Ios5
Sbt
Facebook Graph Api
Osgi
Django Models
C# 4.0
Material Ui
Model View Controller
Apache Storm
Autohotkey
Documentation
Netlogo
Identityserver4
Gps
Download
Codeigniter
Jqgrid
Google Analytics
Model
Stored Procedures
Soap
Asp Classic
Pdf
Jersey
Xna
Smalltalk
Algorithm
Ip
Coq
Editor
Encryption
Tableau Api
Computer Science
Polymer
Character Encoding
Linux Kernel
Printing
Error Handling
Xamarin.ios
Optimization
Bash


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网