Pyspark获取聚合表中的计数_Pyspark_Pyspark Dataframes - Fatal编程技术网

Pyspark获取聚合表中的计数

pyspark

Pyspark获取聚合表中的计数,pyspark,pyspark-dataframes,Pyspark,Pyspark Dataframes,我有一张这样的桌子： +-------------+-----+ | PULocationID| fare| +-------------+-----+ | 1| 5| | 1| 15| | 2| 2| +-------------+-----+ +-------------+----------+------+ | PULocationID| avg_fare | count| +-------------+-

我有一张这样的桌子：

+-------------+-----+
| PULocationID| fare|
+-------------+-----+
|            1|    5|
|            1|   15|
|            2|    2|
+-------------+-----+

+-------------+----------+------+
| PULocationID| avg_fare | count|
+-------------+----------+------+
|            1|        10|     2|
|            2|         2|     1|
+-------------+----------+------+

我想要一张这样的桌子：

+-------------+-----+
| PULocationID| fare|
+-------------+-----+
|            1|    5|
|            1|   15|
|            2|    2|
+-------------+-----+

+-------------+----------+------+
| PULocationID| avg_fare | count|
+-------------+----------+------+
|            1|        10|     2|
|            2|         2|     1|
+-------------+----------+------+

以下是我正在尝试的：

result_table = trips.groupBy("PULocationID") \
        .agg(
            {"total_amount": "avg"},
            {"PULocationID": "count"}
    )

如果我去掉count行，得到avg列就可以了。但是我还需要计算有多少行有这个特定的PULocationID

注意：除了

pyspark.sql.functions import col

谢谢你的帮助

我非常接近，我只是把它格式化成两本字典而不是一本

result_table = trips.groupBy("PULocationID") \
        .agg(
            {"total_amount": "avg","PULocationID":"count"}
    )

这应该是您的工作解决方案-使用avg（）
和count（） df = spark.createDataFrame([(1,5),(1,15),(2,2)],[ "PULocationID","fare"]) df.show() df_group = df.groupBy("PULocationID").agg(F.avg("fare").alias("avg_fare"), F.count("PULocationID").alias("count")) df_group.show() **Input** +------------+----+ |PULocationID|fare| +------------+----+ | 1| 5| | 1| 15| | 2| 2| +------------+----+ Output +------------+--------+-----+ |PULocationID|avg_fare|count| +------------+--------+-----+ | 1| 10.0| 2| | 2| 2.0| 1| +------------+--------+-----+

[twig]相关文章推荐

在Twig中调用变量内部的宏 twig

Twig 细枝动态替换关键字 twig

Twig 导航链接在移动设备上有效，但在桌面上无效 twig markdown

Twig 你能为一个全局的分支扩展设置安全吗 twig

Twig 小枝 twig tinymce

Twig 未净化过滤器仍在转换&；至&；amp；在源头 twig

Twig 如何将类添加到父导航项而不将其添加到craft中的子导航项？ {%set pages=craft.entries.section（'interests'）.all（）%} {%nav页面在页面%} {{page.getLink（）}} {%ifchildren%} {%children%} {%endifchildren%} {%endnav%} twig

Twig 小枝批处理功能：2、3、2项 twig

随机文章推荐

Text 自动将文本转换为PNG（或其他透明文件格式）？ text imagemagick

Text 过滤前n行的两个模式之间的文本 text filter sed awk grep

Text 如何自动执行Microsoft Word的日常操作？ text ms-word

Text rad屏蔽文本输入和rad屏蔽文本框之间的差异？ text

在richTextBox（C#）中选择文本时禁用滚动 text scroll

Text UTF-8字符串是否总是比UTF-16短？ text unicode encoding utf-8

Text 读取文本文件并在Jtable中显示它？ text

Text 如何删除记事本中|字符++； text notepad++

Text 支持向量机用于文本分类-机器学习教程？我如何开始？ text machine-learning nlp

Text 不使用OnGUI就可以创建文本标签吗？ text unity3d

Text 文本摘要数据集 text

Text 区分文章中的文本和代码 text

Text 使用自动热键粘贴文本的键盘键 text keyboard autohotkey

Text Sed/Awk段落格式解决方案 text awk sed

Text 记事本++；-如何更改比较中突出显示的差异？ text notepad++

Text VHDL：读取文本文件 text vhdl

Text 通过AWK在txt中进行基于模式的替换 text awk sed

Text 美国电话电报公司；T电子邮件到文本显示CSS片段 text sms

Text 一个小型代码项目的平均竞争时间是多少？ text

Text dbf从dbf文件中获取粗体字符串值 text vb6

[pyspark]相关推荐

多值上的PySpark reduceByKey
Pyspark

qubole上的pyspark作业失败，出现“0”；正在重试异常读取映射器输出“；
Pyspark

PySpark数据帧操作效率
Pyspark

Pyspark 从XML源读取时出现自定义架构错误
Pyspark

如何在Pyspark中为数据帧上的不同组找到不同的值并重新编码数据帧
Pyspark

Pyspark 派斯帕克-哈弗公式中的误差
Pyspark

Pyspark Spark数据帧分组和按键分区，并具有一定数量的分区。
Pyspark

pyspark：计算每个不同值的出现次数
Pyspark

Pyspark databricks delta在哪里存储它'；什么是元数据？
Pyspark

Dataproc上PySpark中的BigQuery连接器ClassNotFoundException
Pyspark Google Bigquery

Pyspark 获取关联国家/地区的最小值
Pyspark

从pyspark dataframe列中删除HTML标记
Pyspark

Pyspark 如何在非常短的时间内向初始数据帧添加大量列（5000~1000列）？
Pyspark

Pyspark 查找spark作业输出文件的位置
Pyspark

Pyspark 将变量从火花推至气流
Pyspark Airflow

pyspark中的爆炸函数
Pyspark

如何在pyspark中的函数中使用变量连接列
Pyspark

Pyspark Splite&；在火花中爆炸；Py4JJavaError:java.lang.OutOfMemoryError:java堆空间
Pyspark

Pyspark：如何构建一列（包含负值和正值）的总和，其停止点为0
Pyspark

Pyspark 如何在Palantir foundry中无需身份验证即可上传数据集
Pyspark

Pyspark数据帧中的多个筛选条件不等于条件
Pyspark

Pyspark：不是分区上的累积和
Pyspark

使用pyspark，我想对0小时的计数进行最大和，有可能吗
Pyspark

Pyspark 在koalas to_表中设置非空列
Pyspark

在sql查询CTE和pyspark代码中获得不同的结果
Pyspark

Tags

Qml Activerecord Cluster Computing Layout Navigation Elm Here Api Curl Devexpress Google Sheets Fullcalendar Ipython Import Clojure Groovy Tfs Canvas Project Management Caching Artifactory Generics Sorting Visual Studio 2008 Razor Dynamic Menu Memory Management Google Chrome Devtools Asp Classic Windbg Ios4 Mapreduce Java Symfony Web Services Binary Ibm Mq Backbone.js Ios Android Ndk Neo4j Magento Silverlight Iphone Gruntjs Talend Graphics Pagination Prestashop Tcl Jasmine Openerp Timer Visual Studio Code Amazon Web Services Sencha Touch Redis Scala Oracle10g Apache Flex Networking Service Cassandra Random Next.js Xml Shiny Angular Magento2 Workflow Installation Google Chrome Extension Reactjs Omnet++ Flutter Api Twitter Mobile Laravel 4 Ckeditor Windows Phone Asp.net Mvc 4 C# 4.0 Gmail Jmeter Ignite Xamarin Jaxb Virtualbox Actionscript 3 Xquery Swift3 Jquery Plugins Xslt Gtk Extjs Blazor Fonts Wpf Php Drupal 7 Arangodb Nlp Directx Bluetooth Pdf Sed Kdb Regex Docker Geometry Vhdl Tridion Yaml Highcharts Assembly Autohotkey Vmware Jenkins Corda R Titanium Internet Explorer 8 Less Interface Continuous Integration Selenium Webdriver Cucumber Coffeescript Zend Framework2 Cookies Version Control Knockout.js Model View Controller Scrapy Prolog Google Colaboratory Influxdb Delphi Geolocation Tabs Snmp Sockets Sql Air Printing Forms Lisp Orientdb Server Ldap Visual Studio 2010 Smtp Asp.net Mvc Pytorch Isabelle Collections Internationalization Phpunit Gridview Powershell Enums Mediawiki Automation Math Nuget Processing Encryption Formatting Twitter Bootstrap Browser Cypress Tableau Api Laravel Firefox Google Chrome C++11 Windows Store Apps Visual C++ Latex Hibernate Jakarta Ee Vbscript React Native Gps Imagemagick Teamcity Doxygen Actions On Google Spring Cloud Wolfram Mathematica Html5 Canvas Combobox Merge String Rxjs Doctrine Orm EmptyTag Computer Science Hyperlink Wso2

Copyright © 2024. All Rights Reserved by - Fatal编程技术网