Apache spark pyspark collect_列表，但限制为最大N个结果_Apache Spark_Pyspark - Fatal编程技术网

Apache spark pyspark collect_列表，但限制为最大N个结果

apache-spark pyspark

Apache spark pyspark collect_列表，但限制为最大N个结果,apache-spark,pyspark,Apache Spark,Pyspark,我有以下pyspark逻辑用于对一些目标列进行分组，然后将另一个目标列收集到一个数组中： ( df .groupBy(groupby_cols) .agg( F.collect_list( F.col(target_col) ).alias(target_col) ) ) 我希望将结果限制为每个收集的列表最多保留N值，以便生成的目标列由数组长度最多为N的单元格组成现在，我可以在pyspark中通过一个UD

我有以下pyspark逻辑用于对一些目标列进行分组，然后将另一个目标列收集到一个数组中：

(
    df
    .groupBy(groupby_cols)
    .agg(
        F.collect_list(
            F.col(target_col)
        ).alias(target_col)
    )
)

我希望将结果限制为每个收集的列表最多保留

值，以便生成的目标列由数组长度最多为

的单元格组成

现在，我可以在pyspark中通过一个UDF实现这一点，该UDF采用

目标列，并在每个单元格上应用lambda:lambda x:x[：N]
，但这似乎是实现我寻求的行为的一种低效手段。

from pyspark.sql import Window, functions as F

(
    df
    .withColumn("rn", F.row_number().over(
        Window.partitionBy(groupby_cols).orderBy(orderby_cols) # orderby_cols can be replaced by F.rand(1) if you don't mind which will be stayed/dropped
        )) # this will count from 1, for every element in the groupby_cols
    .filter(f"rn <= {N}") # removes all instances that larger than N
    .groupBy(groupby_cols)
    .agg(F.collect_list(F.col(target_col)).alias(target_col))
)

从pyspark.sql导入窗口，函数为F
(
df
.带列（“rn”，F.行号（）。超过(
Window.partitionBy（groupby_cols）.orderBy（orderBy_cols）#orderBy_cols可以替换为F.rand（1），如果您不介意保留/删除哪个
))#对于groupby_cols中的每个元素，这将从1开始计算
.过滤器（f“rn




[pyspark]相关文章推荐



                                                        
PySpark：使用条件筛选数据帧
pyspark 
Pyspark-Sql filter-通过检查数组中是否显示id值来选择所有行
pyspark 
Pyspark 在两列和一个指示符之间生成所有可能的组合，以显示源表中是否存在该组合
pyspark 
将DF列转换为列表时出现PySpark错误
pyspark 
pyspark Regexp_Extract-从字符串列中提取多个单词
pyspark 
pyspark dataframe when和multiple Others子句
pyspark 
Pyspark UDF-如何返回多个可能的类型？
pyspark 
Pyspark 确定每个产品对的联合会话数
pyspark 
在Dataproc中运行PySpark时发生ModuleNotFoundError
pysparkgoogle-cloud-storage 
如何从pyspark中的一列创建数据帧？
pyspark 
使用pycharm在本地运行pyspark
pyspark 
如何从pyspark的dataframe中删除空列
pyspark 
Pyspark 关系化json深层嵌套数组
pyspark 
Pyspark 在Spark数据帧的列表中查找最大值
pyspark 
Pyspark 如何在写入数据帧时从列名中删除双引号
pyspark 
PySpark-Databricks中的集群实例概要文件
pyspark 
Pyspark将字符串列转换为整数、数字列
pyspark 
Pyspark 如何在Palantir Foundry中合并多个动态输入？
pysparkdynamic 
Pyspark 齐柏林飞艇完成一个过程后，有没有办法运行一个单独的笔记本？
pyspark 
Pyspark AWS Glue create_dynamic_frame from_catalog返回不在架构中的列
pyspark 
                                       





随机文章推荐



                                                        
Reference AWK的最佳参考/婴儿床表
referenceawk 
Reference 如何在mvc3项目中使用引用dll中的模型
reference 
Reference 尝试转移所有权时无法移出借用的内容
referencerust 
Reference 为什么我可以返回对本地文本的引用而不是变量的引用？
referencerust 
Reference Visual Studio 2017引用与依赖项
referencedependenciesasp.net-core-mvcvisual-studio-2017 
Reference 如何操作基于xml数据生成的行的单个实例？
referenceadobe


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 如何在Spark管道中使用RandomForest
									Apache Spark
							 
Apache spark Apache公共配置上XMLConfiguration的调用setEntityResolver时Spark提交失败
									Apache Spark
							 
Apache spark Spark：持久化和重新分区顺序
									Apache Spark
							 
Apache spark 基于内部字段筛选嵌套PySpark数据帧
									Apache Spark
							 									Dataframe
							 									Pyspark
							 
Apache spark 跨节点的不平衡工作负载分布
									Apache Spark
							 									Pyspark
							 
Apache spark 如何使用spark dataframe API按最大值（日期）进行选择
									Apache Spark
							 
Apache spark 我们能用百分位数代替分位数吗
									Apache Spark
							 									Statistics
							 
Apache spark 与Spark SQL的Tableau连接
									Apache Spark
							 									Tableau Api
							 
Apache spark 如何在Pyspark中使用列式拆分创建RDD的子集？
									Apache Spark
							 									Pyspark
							 
Apache spark SparkContext对象没有属性esRDD（elasticsearch spark connector）
									Apache Spark
							 									Pyspark
							 
Apache spark 我在创建SparkSession时遇到非法argumentException
									Apache Spark
							 									Pyspark
							 
Apache spark 没有足够的副本可用于一致性本地查询（需要1个副本，但只有0个副本处于活动状态）
									Apache Spark
							 									Cassandra
							 
Apache spark RpcEnv实例在哪里、驱动程序、主程序还是辅助程序？
									Apache Spark
							 
Apache spark 如何使用Spark（Java）在数据集的所有列上并行应用相同的函数
									Apache Spark
							 									Dataframe
							 
Apache spark 使用spark中keras中保存的模型
									Apache Spark
							 									Serialization
							 									Pyspark
							 									Keras
							 
Apache spark 任何试图使用spark结构化流媒体将数据流传输到红移的人
									Apache Spark
							 									Amazon Redshift
							 
Apache spark 用PySpark-SQL提取组数据
									Apache Spark
							 									Pyspark
							 
Apache spark Cassandra和Spark，选择几个带有case类的列
									Apache Spark
							 
Apache spark Spark作业未使用群集上的工作节点
									Apache Spark
							 
Apache spark RDD、数据帧、Spark SQL：360度比较？
									Apache Spark
							 									Pyspark
							 
Apache spark 使用Spark写入外部Hadoop
									Apache Spark
							 									Hadoop
							 
Apache spark 气流和Spark/Hadoop-独特的群集或一个用于气流，另一个用于Spark/Hadoop
									Apache Spark
							 									Hadoop
							 									Airflow
							 
Apache spark 使用群集模式时无法访问配置单元表
									Apache Spark
							 									Hive
							 
Apache spark 无法转换拼花地板列：应为十进制，找到的是二进制
									Apache Spark
							 									Apache Nifi
							 
Apache spark IntelliJ IDEA的Spark drive K8S群集，无需构建JAR
package learn.spark
导入org.apache.spark.{SparkConf，SparkContext}
对象MasterLocal2{
def main（参数：数组[字符串]）：单位={
val conf=new SparkConf（）
conf.setAppName（“spark-k8s”）
conf.setMaster（“k8s://https://192.168.99.100:16443")
co
									Apache Spark
							 									Kubernetes
							 
Apache spark Spark SQL的第一个入口点
									Apache Spark
							 
Apache spark Spark-计算数组列的统计信息（ArrayType）
									Apache Spark
							 									Hive
							 
Apache spark org.apache.spark.SparkException:无效的spark URL:spark://HeartbeatReceiver@xxxx_LPT-324:51380 PySpark
									Apache Spark
							 									Pyspark
							 
Apache spark Pyspark：向筛选函数添加参数
									Apache Spark
							 									Pyspark
							 
Apache spark 使用Spark 2.4和Spark 3读取多个JSON文件
									Apache Spark
							 									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Log4net
Opencart
Twitter Bootstrap
Karate
Ms Access
Iis
Cluster Computing
Phpstorm
Computer Vision
Scripting
Uitableview
Events
Object
Windows 7
Linker
Sencha Touch
Jasmine
Cloud Foundry
Wxpython
Vuejs2
Aem
Codenameone
Ubuntu
Protractor
C# 3.0
Sql Server 2008 R2
Fullcalendar
Glsl
Postgresql
Language Agnostic
Doctrine Orm
Scala
Intellij Idea
Caching
Magento2
Compilation
Ibm Mobilefirst
.net 4.0
Xamarin.ios
Nginx
Graph
Windows 10
Couchdb
Ajax
Spring Security
Debian
Wordpress
Xpath
Matplotlib
Dictionary
Next.js
Loops
Google Apps Script
Visual Studio 2012
Cron
Install4j
Sms
Ruby
Lambda
Image Processing
Ada
Rx Java
Azure
Z3
Amazon Web Services
Google Compute Engine
Ssh
Meteor
C++
Notepad++
Spring Batch
Zsh
Autodesk Forge
Ethereum
Openlayers
Xcode
Teradata
Primefaces
Ssrs 2008
Mysql
Websocket
Elm
Symfony
Xquery
Log4j
Big O
Ldap
Pine Script
Parameters
Download
Tridion
Hyperledger Fabric
Glassfish
Post
Amazon Ec2
Google Chrome
Appium
Responsive Design
Function
Android
Flash
Graphviz
Join
Transactions
Stream
Yaml
Docker
Sql Server 2005
Asp.net Mvc 4
Reflection
C++11
Asp.net Core
Speech Recognition
Nest
Vba
Twilio
Discord.py
Xslt
Mongodb
Flask
Azure Data Factory
Mod Rewrite
Sed
Oracle
Ansible
Playframework 2.0
Url Rewriting
Enums
Angular Material
Vb.net
Google App Engine
Stored Procedures
Visual Studio
Floating Point
Android Layout
Machine Learning
Stanford Nlp
Julia
Mariadb
Netsuite
Entity Framework 4
Windbg
Json
Npm
D
Gnuplot
Applescript
Clearcase
Windows Installer
Webstorm
Collections
Swagger
Aurelia
Azure Ad B2c
Windows Phone
Postman
Gmail
Windows Store Apps
Nativescript
Mqtt
Testing
Vbscript
Build
Rust
Internationalization
Swift2
Amazon Cloudformation
Sql Server 2008
Macros
Jetty
Office Js
Modelica
Gruntjs
Couchbase
Azure Functions
Silverlight 4.0
Formatting
Certificate
Go
Django Rest Framework
Netty
Html5 Canvas
Highcharts
Unicode
Graphics
Apache Flex
Redux
Hbase
Workflow
Mvvm
If Statement
Orm
Usb
Cygwin
Cors
Less
Bootstrap 4
Date
Google Calendar Api
Ms Office
Actions On Google


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网