Python PySpark-在Groupby之后删除行？_Python_Pyspark - Fatal编程技术网

Python PySpark-在Groupby之后删除行？

python pyspark

Python PySpark-在Groupby之后删除行？,python,pyspark,Python,Pyspark,我的spark是3.0版我已按groupBy（）聚合了数据。我想创建一个函数和一个阈值，如果数据量尝试使用

我的spark是3.0版

我已按groupBy（）聚合了数据。我想创建一个函数和一个阈值，如果数据量尝试使用

并聚合以获得和（），然后收集类别的所有值的，然后分解数组
示例：
df.show()
#+----+----+
#|col1|col2|
#+----+----+
#|   A| 250|
#|   A| 250|
#|   A|  50|
#|   B| 250|
#|   B| 250|
#|   B|  50|
#|   C|   5|
#|   C|   5|
#|   C|  10|
#+----+----+

from pyspark.sql.functions import *


df.groupBy("col1").agg(sum(col("col2")).alias("count"),collect_list(col("col2")).alias("col2")).\
filter(col("count") >200).\
select("col1",explode("col2").alias("col2")).\
show()
#+----+----+
#|col1|col2|
#+----+----+
#|   B| 250|
#|   B| 250|
#|   B|  50|
#|   A| 250|
#|   A| 250|
#|   A|  50|
#+----+----+

我添加了第二张图片来显示预期的输出。非常感谢。

[pyspark]相关文章推荐 Pyspark 当其他笔记本电脑正在运行时，Jupyter群集的内核处于忙碌状态 pysparkjupyter-notebook 通过Hadoop流媒体读取PySpark中的Xml文件 pyspark 在Pyspark中使用LabeledPoint函数是否需要将分类属性转换为数字属性？ pyspark 具有1000列的spark数据帧上的pyspark行条件 pyspark PySpark到数组类型的转换 pyspark 在pyspark Dataframe中添加一个新列（替代.apply in.DF） pyspark Pyspark 如何以tableau格式保存spark数据帧？ pysparktableau-api 如何从pyspark SparseVector获取密钥 pyspark Pyspark 将字符串列的Spark数据框拆分为多个布尔列 pyspark 如何使用Pyspark标记窗口中的最后一行 pyspark Pyspark内核未在Jupyterhub上启动 pyspark 在pyspark中添加新列，并将压缩列表作为常量值 pyspark 在pyspark中随时间窗口放置副本 pyspark 正在运行。/pyspark无法找到本地目录 pysparkterminal 如何在本地pyspark会话中启用配置单元动态分区 pyspark 如何更新pyspark中的列值？ pyspark Pyspark-是否可以使用count（）和排序对数据进行分组？ pyspark Pyspark：输入Pyspark列中存在空值的当前日期（历元） pyspark 如何在pyspark中应用函数？ pyspark Pyspark Spark如何向集群发送功能？ pyspark 随机文章推荐 Parse platform Parse.com JS API出现“未找到对象”ACL问题 parse-platform Parse platform 什么算是解析请求？ parse-platform Parse platform 您可以查看parse.com云代码的历史日志吗？ parse-platform Parse platform 安卓邀请系统 parse-platform Parse platform 从OS X/Mac发送推送通知 parse-platform Parse platform Parse SDK给出了这样一个结论：“我们的；错误：指针字段所有者需要一个指针值；在Facebook上登录 parse-platform Parse platform Parse.com考虑了多少API请求？ parse-platform Parse platform 指向用户的指针出现注册错误 parse-platform Parse platform 您可以在所有云代码方法中使用全局util函数吗？ parse-platform Parse platform Can'；在查询组件后，不执行变异.destroy parse-platformreactjs Parse platform 这是一个有效的JSONObject&；如果是，那么如何迭代以获取所有值 parse-platform Parse platform 使用parse.com限制来自特定域的请求 parse-platform Parse platform 400进行Parse.Cloud.httpRequest时的状态代码 parse-platform Parse platform Parse.com中的多个webhook parse-platform Parse platform 迁移到自己的mongo后如何恢复解析数据？ parse-platform Parse platform 解析服务器2.4.x中的云代码sessionToken是否发生更改？ parse-platform Parse platform 使用多个用户帐户解析Openstack上的服务器（back4app、Heroku的替代方案） parse-platformopenstack Parse platform iOS解析服务器在运行时设置服务器url，无需重新启动应用程序 parse-platform

[python]相关推荐 Python：解析度量数据的简单脚本 Python Python 桌面应用程序导致google drive api崩溃 Python Google Drive Api Python Selenium noarch RPM构建失败 Python Selenium Python Pinax在win7和eclipse下运行吗？ Python Django Eclipse 如何使Python脚本作为带有Distutils的普通linux命令运行？ Python Linux Terminal Python 在哪里存储我不知道的数据'；你不需要密码吗？ Python Raspberry Pi Python 如何将这个常规html表单更改为django表单？ Python Django Forms 如何通过python ssl套接字进行tls重新协商 Python Ssl Python 如何在odoo中创建预期的日期时间？ Python Datetime Openerp Odoo Python 将dataframe列折叠为单个字符串 Python Pandas python中的瑞典Unicode问题 Python Unicode Python 如何在一小时的数据帧中找到平均值和最大值？ Python Pandas 在Python中使用外部/辅助文件（即模块）修改类属性（self）的最佳方法是什么？ Python Python 3.x Oop Flask Optimization Python 从目录中的文件创建一组对象 Python Python 如何创建元素组并选择最大值？ Python Algorithm Statistics Python 为什么在Heroku上提供静态文件而不激活WhiteNoise？ Python Django Heroku Python 使用滑块通过过滤数据更新饼图（Bokeh） Python Pandas Python 生成随机字符串，直到生成给定字符串 Python String If Statement Random Python Discord.py user.block/user.send_friend_请求：错误403/禁止如何授予bot发送好友请求和阻止用户的权限？ Python Python 3.x Discord Discord.py Python panada.crosstab不'；当列接收到相同的值时，t创建方表 Python Pandas Machine Learning Python 如何通过添加另外两列创建一个新列，该列的名称以月份-年份作为循环结束 Python Python 3.x Python 与vscode'；代码'；在终端mac中？ Python Macos Terminal Anaconda Python PyQt小部件的大小不断增加，并退出窗口 Python Python 3.x User Interface Python 如何在我的Django Dash Plotly应用程序中提供本地CSS文件 Python Css Django Python discord.py[voice]Windows安装错误 Python Windows Discord Bots Discord.py 如何将一个整数列表拆分为两个平均值大致相同的单独列表-python Python List 数字显示在浏览器中，但不显示在python中 Python Python 如何在matplotlib中为Axes3D设置facecolor？ Python Matplotlib 3d Python 从网站打印最后10幅图像 Python Web Scraping Python 在/create\u条目处出现值错误/ Python Django Tags Coding Style R Actionscript 3 Charts Colors Octave Security Json Visual Studio 2017 Sbt Grep Postman Nginx Proxy Tomcat Swing Windows 7 Github D Select Recursion Cobol Jira Yocto Discord.js Maven Nestjs Cloud Language Agnostic Blackberry Powershell Django Rest Framework Snowflake Cloud Data Platform If Statement Ckeditor Random Svg Alfresco Perforce Redis Redux Graphql Libgdx Orientdb Amazon Dynamodb Iis 7 Cakephp Outlook Google Visualization Plsql Oracle Apex Pip Emacs Mips Phpmyadmin Cordova Windows Phone 7 Sencha Touch Optimization Devexpress Vaadin Sublimetext3 Three.js Amp Html Google Analytics Error Handling Function Dictionary Ruby On Rails 3.1 Woocommerce Jasmine Stm32 Encryption Web Scraping Serial Port Video Streaming Openlayers 3 Pine Script Coldfusion Merge Umbraco Bash Yii2 Plugins Azure Data Factory Backbone.js Artifactory Codenameone Filesystems Migration Firefox Addon Rally Windows Phone 8.1 Spring Apache Flex Mapreduce Jquery Ui Project Management Matrix Gwt Matlab Spring Cloud Https Javascript Url Rewriting Css Seo Datetime Workflow Wpf Com Playframework 2.0 Input Email Sharepoint 2013 Magento2 Google Chrome Ocaml For Loop Orm Aframe Xampp Pyspark Prestashop Sass Gis Configuration Syntax Join Keyboard Subsonic Tinymce Apache Nifi Asynchronous Open Source Asterisk Documentation Mfc Spring Boot Ansible Listview Discord Html5 Canvas Zend Framework Orchardcms Asp.net Web Api Latex .net Spring Security Debian Sql Processing Sequelize.js Kubernetes Azure Hive Axapta Ibm Mobilefirst Aem Enums Symfony Scala Hash Permissions Windbg Image Time Audio C Sql Server 2008 R2 Excel Web Crawler Pytorch Apache Flink Google Api Eclipse Plugin Ignite Redirect Asp.net Mvc 4 Ssas Android Emulator Asp.net Mvc 3 Gcc Biztalk Sqlite Session Unix Plot Vhdl Svn Tensorflow Jakarta Ee Phpunit Spotify Blazor Windows 8 Nest Amazon Cloudformation Notepad++ Xquery Visual Studio 2010

Copyright © 2024. All Rights Reserved by - Fatal编程技术网