Python Pyspark dataframe获取至少一行满足条件的列列表_Python_Apache Spark_Dataframe_Pyspark - Fatal编程技术网

Python Pyspark dataframe获取至少一行满足条件的列列表

python apache-spark dataframe pyspark

Python Pyspark dataframe获取至少一行满足条件的列列表,python,apache-spark,dataframe,pyspark,Python,Apache Spark,Dataframe,Pyspark,我有一个PySparkDataFrame Col1 Col2 Col3 0.1 0.2 0.3 我想得到至少一行满足条件的列名，例如一行大于0.1 在这种情况下，我的预期结果应该是： [Co2 , Co3] 我不能提供任何代码，因为我真的不知道怎么做。只需计算满足谓词的项（内部选择）并处理结果： from pyspark.sql.functions import col, count, when [c for c, v in df.select([ count(when(col

我有一个PySpark

DataFrame

Col1 Col2 Col3
0.1  0.2  0.3

我想得到至少一行满足条件的列名，例如一行大于0.1

在这种情况下，我的预期结果应该是：

[Co2 , Co3]

我不能提供任何代码，因为我真的不知道怎么做。

只需计算满足谓词的项（内部

选择）并处理结果：
from pyspark.sql.functions import col, count, when

[c for c, v in df.select([
    count(when(col(c) > 0.1, 1)).alias(c) for c in df.columns
]).first().asDict().items() if v]

逐步：

聚合（DataFrame
->DatFrame
）：
DataFrame[\u 1:bigint，\u 2:bigint，\u 3:bigint]

收集第一行行：
a_row = counts.first()

行（_1=0，_2=1，_3=1）

转换为Pythondict
：
a_dict = a_row.asDict()

{u1'：0'，'u2'：1'，'u3'：1}

并在值为truthy时，在其项上迭代，保留键：
[c for c, v in a_dict.items() if v]

或显式检查计数：
[c for c, v in a_dict.items() if v > 0]



[c for c, v in a_dict.items() if v > 0]




[apache spark]相关文章推荐



                                                        
Apache spark 火花RDD操作，如顶部返回较小的RDD
apache-spark 
Apache spark 在spark streaming中处理数据库连接
apache-spark 
Apache spark SparseVector的Spark MLlib行矩阵
apache-spark 
Apache spark count（）是否导致map（）代码在Spark中执行？
apache-sparkpyspark 
Apache spark GraphX-从路径检索所有节点
apache-spark 
Apache spark 在Spark上的图X中计算多级连接
apache-spark 
Apache spark dcos chronos spark向mesos主机提交命令失败，因为未经授权
apache-spark 
Apache spark 将elephas和keras与Centos群集上的spark一起使用-theano后端
apache-sparkcentospysparkdeep-learningkeras 
Apache spark Tez上的蜂巢没有'；我不能在Spark 2中工作
apache-sparkhive 
Apache spark ApacheGriffin生成错误
apache-spark 
Apache spark spark streaming（火花流）——单个批次将花费40秒
apache-spark 
Apache spark 如何使用Datastax spark Cassandra连接器从Cassandra表中读取特定列？
apache-sparkcassandra 
Apache spark 映射到同一端口的docker容器
apache-sparkdocker 
Apache spark ApacheSpark：在工作节点而不是主节点创建结果文件
apache-spark 
Apache spark Spark SQL SaveMode.Overwrite提供FileNotFoundException
apache-sparkamazon-s3 
Apache spark 大火花分区大小的缺点
apache-spark 
Apache spark 如何解决AWS EMR集群中的NoClassDefFoundError:org/apache/spark/sql/types/DataType？
apache-sparksbt 
Apache spark Spark缓存对优化逻辑计划的影响
apache-sparkcaching 
Apache spark 如何确保Pyspark中多行代码的原子性？
apache-sparkpyspark 
Apache spark 特殊字符不会从色调表中显示，而是从配置单元外壳中显示
apache-sparkhive 
                                       





随机文章推荐



                                                        
Dynamics crm 2011 MS CRM 2011：通过IOrganizationService Web服务审核功能和更新
dynamics-crm-2011 
Dynamics crm 2011 从MSCRM表单中删除日历图标
dynamics-crm-2011 
Dynamics crm 2011 在事务中查找记录
dynamics-crm-2011 
Dynamics crm 2011 如何使仪表板仅对特定安全角色的用户可见？
dynamics-crm-2011 
Dynamics crm 2011 如何加快删除特定CRM 2011实体
dynamics-crm-2011 
Dynamics crm 2011 导入解决方案在显示解决方案信息之前挂起
dynamics-crm-2011 
Dynamics crm 2011 CRM 2011显示/隐藏功能区组
dynamics-crm-2011dynamics-crm 
Dynamics crm 2011 Can'；t在CRM 2011中使用OrganizationServiceClient创建带有手动折扣的发票详细信息
dynamics-crm-2011 
Dynamics crm 2011 QueryExpression在Dynamics CRM插件中没有结果
dynamics-crm-2011dynamics-crm 
Dynamics crm 2011 新的CRM 2011更新汇总是否包含以前汇总的更改
dynamics-crm-2011dynamics-crm 
Dynamics crm 2011 Dynamics CRM 2011工作流工作日计算
dynamics-crm-2011 
Dynamics crm 2011 如何创建PostImage实体的新对象？
dynamics-crm-2011dynamics-crm 
Dynamics crm 2011 找出什么'；s正在访问CRM Organization.svc
dynamics-crm-2011 
Dynamics crm 2011 AX2012-CRM 2011集成
dynamics-crm-2011axapta 
Dynamics crm 2011 Dynamics CRM：比较CRM环境
dynamics-crm-2011dynamics-crm 
Dynamics crm 2011 始终在CRM中打开案例实体的默认表单
dynamics-crm-2011dynamics-crm 
Dynamics crm 2011 无法使用CRM 2016中新创建的配置文件创建记录
dynamics-crm-2011dynamics-crm


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python用类和访问类实例装饰函数
									Python
							 
Python 如何将.npy文件转换为.binaryproto？
									Python
							 									C++
							 
Python 使用str.format_map（）时超过最大字符串递归次数
									Python
							 									Json
							 									String
							 
Python 使用请求/会话后保存映像
									Python
							 									Session
							 
Python 收敛于初始未知常数时平滑运行系统噪声的算法
									Python
							 									Algorithm
							 									Filter
							 
为什么我会犯错误；OverflowerError:Python int太大，无法转换为C long“；从熊猫馆/马特普洛特图书馆？
									Python
							 									Python 3.x
							 									Pandas
							 									Datetime
							 									Matplotlib
							 
Python对列和"；从数据帧复制一个切片；警告
									Python
							 									Pandas
							 									Dataframe
							 
错误：否'；访问控制允许原点'；pythonweb服务器中的头
									Python
							 									Xml
							 
Python randint（）仅生成高值，而没有绘制足够的对象
									Python
							 									Random
							 									Graphics
							 
Python 平均值忽略NumPy数组中沿列的NaN，而不使用NumPy.nanmean
									Python
							 									Arrays
							 									Numpy
							 
Python 带一个斜体字的Arial字体Matplotlib xlabel
									Python
							 									Matplotlib
							 									Latex
							 
这条Python行是什么意思？
									Python
							 
Python 检查该函数是否在其他函数内工作
									Python
							 
Python TensorFlow中的SVD比numpy中的慢
									Python
							 									Numpy
							 									Tensorflow
							 
在Python中导入图像的有效方法
									Python
							 									Performance
							 									Image Processing
							 
Python 如何在numpy数组中计算相同的字符串？
									Python
							 									Python 3.x
							 									Numpy
							 
Python 如何在初始化numpy对象数组时避免额外的浮点对象副本
									Python
							 									Numpy
							 
Python 使用统计模型的指数平滑插值
									Python
							 
Python 调整字典中的数据，然后打印它
									Python
							 									Pandas
							 
Python 如何在使用.apply（pd.Timestamp）时指定日期标准。2018年11月12日的日期和月份
									Python
							 									Python 3.x
							 									Pandas
							 									Dataframe
							 
Python 删除对对象的引用，但如果在别处引用，则将对象保留在内存中
									Python
							 									Reference
							 
Python 从多个文件导入变量
									Python
							 									Import
							 
Python 未捕获类型错误：无法读取属性'；科尔斯潘'；未定义的
									Python
							 									Pycharm
							 
Python 给定离散分布，如何将数字舍入到该分布中最接近的值？
									Python
							 
zlib使用python在文件中进行压缩/解压缩
									Python
							 									Python 3.x
							 
Python TypeError:存储必须是werkzeug.files存储在Flask Upload中
									Python
							 									Flask
							 
selenium.common.exceptions.InvalidArgumentException:消息：无效参数：找不到文件使用selenium Python上载文件时出错
									Python
							 									Selenium
							 									Selenium Webdriver
							 									File Upload
							 
Python，将坐标度转换为小数点
									Python
							 									Geolocation
							 
Python 根据元组列表中的第二个值找到元组后返回元组的第一个元素
									Python
							 									List
							 
Python 如何使pygame.draw.rect检测与pygame.surface的碰撞？
									Python
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Acumatica
Pagination
Webstorm
Ruby On Rails
Bash
Formatting
Layout
Elixir
Streaming
Indexing
Sharepoint
Log4net
Silverlight
Ms Office
Visual Studio 2010
Sublimetext3
Gnuplot
Teamcity
Opencart
Weblogic
Ecmascript 6
Dialogflow Es
Pentaho
Jwt
Tomcat
Data Structures
Bison
Workflow
Iis
Stored Procedures
Mqtt
Html5 Canvas
Kernel
Ruby On Rails 3.1
Twitter Bootstrap
Tsql
Symfony1
Chef Infra
Drupal 6
Model
Forms
Configuration
Azure
Database Design
Websocket
Data Binding
Vagrant
Google Maps
3d
Jar
Download
Sugarcrm
Scala
Time
Charts
Sdk
Internet Explorer 8
Jhipster
Navigation
Silverstripe
Leaflet
Sharepoint 2007
R
Jasper Reports
Unity3d
Wicket
Nuget
Yaml
Spring Boot
Kubernetes
Interface
Mdx
Android Studio
Dask
Cassandra
Xslt
Tinymce
Big O
Regex
Antlr
Statistics
Yocto
Z3
Collections
Mapreduce
Twig
Discord.js
Sass
Open Source
Ignite
Postman
Oauth
Web Services
Listview
Asterisk
Flash
Entity Framework 4
Git
Netty
Plone
Google Drive Api
Appium
Sencha Touch
Stripe Payments
Common Lisp
Lua
Testng
Azure Functions
Video Streaming
Firefox
Sails.js
Imagemagick
C++
Content Management System
Ag Grid
Sapui5
Ios6
Generics
Multithreading
Glsl
Fullcalendar
Domain Driven Design
Ibm Mobilefirst
Sml
Swift2
Algorithm
Image
Javafx
Go
Monitoring
Python 3.x
Sharepoint 2013
Windows Mobile
Synchronization
Recursion
Shell
Openerp
Speech Recognition
.net 4.0
Vim
Nginx
Jakarta Ee
Select
Pine Script
Google Cloud Storage
Apache
Passwords
Webrtc
Stream
Puppet
Android
Javascript
Pointers
Openstack
.net Core
Sonarqube
Spotify
Url Rewriting
Html
Compiler Errors
Rx Java
Struts2
Tridion
Processing
Tags
Razor
Encryption
Proxy
Unix
Jquery Plugins
Bazel
Gis
Oracle Apex
Gdb
Php
Google Colaboratory
Exception Handling
List
Windows Phone 7
Jasmine
Webview
Instagram
Logic
Ibm Mq
Service
Map
User Interface
Actionscript 3
Google Plus
Cors
Colors
Mule
Xamarin.android
Mongoose
Google Chrome
Swiftui
Zend Framework
Hive
Time Complexity
Hyperledger Fabric
C# 4.0


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网