PySpark中的每组平均值_Pyspark_Apache Spark Sql_Average - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/matlab/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
PySpark中的每组平均值_Pyspark_Apache Spark Sql_Average - Fatal编程技术网

PySpark中的每组平均值

pyspark

PySpark中的每组平均值,pyspark,apache-spark-sql,average,Pyspark,Apache Spark Sql,Average,我有PySpark数据框，如下所示： cust | amount | ---------------- A | 5 | A | 1 | A | 3 | B | 4 | B | 4 | B | 2 | C | 2 | C | 1 | C | 7 | C

我有PySpark数据框，如下所示：

cust |  amount |  
----------------
A    |  5      |  
A    |  1      |
A    |  3      |     
B    |  4      |     
B    |  4      |     
B    |  2      |     
C    |  2      |     
C    |  1      |     
C    |  7      |     
C    |  5      |

我需要按列

“cust”

分组，并计算每组的平均值

预期结果：

cust |  avg_amount
-------------------
A    |  3
B    |  3.333
C    |  7.5

我一直在使用下面的代码，但给出了错误

data.withColumn（“平均金额”），F.avg（“金额”）

你知道我如何计算这个平均值吗？

使用

groupBy

按客户统计交易数量和

金额的平均值：
from pyspark.sql import functions as F

data = data.groupBy("cust")\
           .agg(
               F.count("*").alias("amount"),
               F.avg("amount").alias("avg_amount")
           )

如何确定“金额”列？似乎是为每个客户随机选择的。预期输出中的金额列的规则是什么？例如，为什么组A
的3
？列金额中没有规则。它是事务行。取决于客户正在进行的交易数量。那么B不应该是2，C不应该是4吗？他们在输入表中分别有2个和4个事务。这是否回答了您的问题？




[matlab]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
Workflow 如何在windows工作流中创建子例程？
workflow 
Workflow 可重用子工作流？
workflow 
Workflow 将审批流程持久化到SQL
workflow 
Workflow 是否可以在单个工作流中分配多个资产？
workflowliferay 
Workflow 如何将hadoop streaming cmdenv与Oozie一起使用？
workflow 
Workflow AEM工作流过程步骤在启动后不应向用户显示
workflowaem 
Workflow 还原到工作流之前的文档版本-Alfresco
workflowalfresco 
Workflow ODOOV9工作流
workflow 
Workflow 加载项时出错：未找到已部署的进程定义
workflowalfresco


                                        

                                        
                                        


                                                
                                                        [pyspark]相关推荐
                                                        
从Pyspark中的多个目录读取拼花地板文件
									Pyspark
							 
Pyspark:错误--Java网关进程在向驱动程序发送端口号之前退出
									Pyspark
							 
pyspark从一列中的列表中生成两列
									Pyspark
							 
如何在pyspark中将数据帧的输出写入CSV文件
									Pyspark
							 
Pyspark 从cloudant IBM Bluemix NoSQL数据库中提取值
									Pyspark
							 									Ibm Cloud
							 
Pyspark SparkContext只能在驱动程序上使用
									Pyspark
							 
Pyspark 数据框-显示数据框并打印字符串
									Pyspark
							 
如何在pyspark中将Unicode日期/时间字符串转换为python日期时间
									Pyspark
							 
如何在pyspark中绘制直方图
									Pyspark
							 
Pyspark 按列分组后填充缺少的值
									Pyspark
							 
使用PySpark，如何基于groupby/window/partition填充列中的值并执行UDF？
									Pyspark
							 
如何在pyspark中使用Graphframes或igraph或networx查找顶点的成员资格
									Pyspark
							 
当PySpark将配置单元表读取到内存时，Apache Arrow OutOfMemoryException
									Pyspark
							 
在pysparksql中使用相关子查询
									Pyspark
							 
如何在pyspark中删除列标题中的空白以及如何将字符串日期转换为日期时间格式
									Pyspark
							 
如何正确读取CSV-pyspark和混乱数据
									Pyspark
							 
PySpark中的分数排序
									Pyspark
							 
XGB分类器是否适合pyspark数据帧？
									Pyspark
							 
pyspark函数用于更改数据类型
									Pyspark
							 
无法从pyspark连接hivellap
									Pyspark
							 
何时从pyspark中的内存中删除数据帧，以及如何显式删除数据帧
									Pyspark
							 
在Pyspark中将json sturc值拆分为多列
									Pyspark
							 
如何使用Dataproc Pyspark在BigQuery中创建外部表
									Pyspark
							 									Google Bigquery
							 									Cloud
							 
Pyspark 具有数组类型列的堆栈函数中出现spark selectExpr错误
									Pyspark
							 
使用performant select操作重命名PySpark数据帧中的列
									Pyspark
							 
Pyspark：如何编写复杂的数据帧计算代码
									Pyspark
							 
Pyspark AWS粘合作业方法pyWriteDynamicFrame不存在
									Pyspark
							 
Pyspark PySaprk-使用Databricks Spark在Synapse中执行合并
									Pyspark
							 
从Pyspark到Hive截断为Varchar（8）的字符串
									Pyspark
							 									Hive
							 
Pyspark 派斯帕克疾病控制中心
									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Javafx
Amazon Ec2
Orchardcms
Android Ndk
Amazon Web Services
Plot
Ms Office
Prolog
Tinymce
Session
Nsis
Fiware
Certificate
Ant
Netlogo
Clojure
Webgl
Instagram
Glassfish
Hadoop
Redux
Speech Recognition
Delphi
Swift
Office365
Express
Razor
Random
Project Management
C++11
Cryptography
Authentication
Meteor
Installation
Ada
Cordova
Gridview
Spring Cloud
Pycharm
Nosql
Ecmascript 6
Socket.io
Kdb
Ibm Cloud
Jdbc
Fullcalendar
Sockets
Discord.py
Keras
Crystal Reports
Windbg
Object
Bazel
Verilog
Tabs
Ssis
Autohotkey
Udp
Jquery
Pascal
X86
Clang
Ipad
Memory Management
Routes
Modelica
Web Services
Botframework
Material Ui
Struts2
Arduino
Functional Programming
Google Chrome
Applescript
Resharper
Install4j
Vagrant
Windows 10
Module
Asp Classic
Snowflake Cloud Data Platform
View
.net Core
Uwp
Git
Listview
Orientdb
Cluster Computing
Iis 7
Character Encoding
Powerbi
Wolfram Mathematica
Transactions
Latex
Bash
Signalr
Embedded
Ip
Logic
Opencart
Error Handling
Geolocation
Lucene
Asynchronous
Antlr4
Activemq
Proxy
Jwt
Server
Octave
Hbase
Xcode4
Opengl
Erlang
Maven
Filesystems
Wicket
Asp.net Web Api
Nginx
Google Apps Script
Asp.net Core
Debian
Datatables
String
Odoo
Ruby On Rails 4
Sails.js
Keycloak
Design Patterns
Notifications
Apache Camel
Io
Docker Compose
Visual Studio
Influxdb
Primefaces
Coffeescript
Reporting Services
Spring Mvc
Loops
Post
Javafx 2
Replace
Directx
Gatsby
Apache Nifi
C++
Odata
Dll
Asp.net Mvc 5
Flask
Documentation
Apache Spark
Paypal
Hybris
Github
Wso2
Osgi
Makefile
Virtualbox
Stored Procedures
Exception Handling
Sdk
Reflection
Spring Security
Tableau Api
Ios5
Colors
Matplotlib
Button
Sitecore
Numpy
Opencl
Mobile
Synchronization
Gnuplot
Html
Yocto
Jupyter Notebook
Machine Learning
Assembly
Nunit
Mod Rewrite
Localization
Macos
Ffmpeg
Chef Infra
Terminal
Breeze
Linq To Sql
Tree
Openid
Ldap
Sass
Iframe
Sql Server 2012
Youtube Api
Reference
Jersey
Stanford Nlp
Automation


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网