Apache spark 如何在Pyspark中将groupby与数组元素一起使用？_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 如何在Pyspark中将groupby与数组元素一起使用？

apache-spark pyspark

Apache spark 如何在Pyspark中将groupby与数组元素一起使用？,apache-spark,pyspark,Apache Spark,Pyspark,我正在Pyspark中的数据帧上运行groupBy操作，我需要按一个或两个功能对列表进行分组。。我如何执行此操作 record_fields = [['record_edu_desc'], ['record_construction_desc'],['record_cost_grp'],['record_bsmnt_typ_grp_desc'], ['record_shape_desc'], ['record_sqft_dec_grp', 'record_renter_grp_c_flag']

我正在Pyspark中的数据帧上运行groupBy操作，我需要按一个或两个功能对列表进行分组。。我如何执行此操作

 record_fields = [['record_edu_desc'], ['record_construction_desc'],['record_cost_grp'],['record_bsmnt_typ_grp_desc'], ['record_shape_desc'],
['record_sqft_dec_grp', 'record_renter_grp_c_flag'],['record_home_age'],
['record_home_age_grp','record_home_age_missing']]


for field in record_fields: 
    df_group = df.groupBy('year', 'area', 'state', 'code', field).sum('net_contributions')
    ### df write to csv operation

我的第一个想法是创建一个列表列表并将其传递给groupby操作，但我得到以下错误：

TypeError:参数无效，不是字符串或列：类型的['record\u edu\u desc']。对于列文字，请使用“lit”、“array”、“struct”或“create_map”函数

我该怎么做？我对其他方法持开放态度。

试试这个（注意

[asterisk]在

字段之前）：
另外，还可以查看此内容以了解python中星号的更多信息。
是否要按记录字段中的所有列名以及状态、年份、代码等进行分组？是的，但是一次只有一个元素的循环
for field in record_fields: 
    df_group = df.groupBy('year', 'area', 'state', 'code', *field).sum('net_contributions')




[pyspark]相关文章推荐



                                                        
Pyspark 基于RDD的py-spark矩阵乘法
pyspark 
Pyspark 如何获取列表'；数据帧spark中一列的长度？
pyspark 
通过在PySpark中的现有列中应用函数来创建新列？
pyspark 
PySpark.sql.functions.col和PySpark.sql.functions.lit之间的PySpark差异
pyspark 
如何从Pyspark的DataFrame中获取数值列并计算zscore
pyspark 
Pyspark EMR+Spark+KMS-保存解密数据
pyspark 
Pyspark 在群集模式下通过spark提交的pyarrow失败
pyspark 
PySpark TypeError:类型为'；ParamGridBuilder'；没有len（）
pyspark 
Pyspark 铸串状；[1,2,3]”；排列
pyspark 
如何在pyspark中从数据帧中选择一系列行
pyspark 
如何基于同一列的条件更改PySpark数据帧中的值？
pyspark 
pyspark中的日期格式
pyspark 
Pyspark 使用selectExpr选择包含特殊字符的spark dataframe列
pyspark 
spark中的pyspark日期范围计算
pyspark 
Pyspark 红移：表格和文件之间的列数不匹配，由spark以拼花格式生成
pysparkamazon-redshift 
在pyspark（databricks）中使用NLTK中的停止字时发生酸洗错误
pyspark 
Pyspark dask-在大于RAM的大数据帧上应用函数
pysparkdask 
Pyspark 无法在Azure DataRicks中创建具有时间戳数据类型的配置单元表
pysparkhive 
如何在PySpark结构化流媒体上执行单元测试？
pyspark 
跳过pyspark dataframe中的前两行并从行值中删除引号
pyspark 
                                       





随机文章推荐



                                                        
为什么文件名在拖放到Clearcase资源管理器时转换为小写？
clearcase 
Clearcase Cleartool从rmname文件夹中删除签出文件
clearcase 
Clearcase 如何对文件进行递归签出&；具有CCRC的子目录
clearcase 
Clearcase 签出文件时出错
clearcase 
Clearcase cleartool中VOB根目录下的目录列表
clearcase 
ClearCase：是否可以对配置规范本身进行版本控制？
clearcase 
Clearcase多站点同步问题
clearcase 
Clearcase Cleartool仅列出文件夹的标记文件
clearcase


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark PySpark错误：“0”；“输入路径不存在”；
									Apache Spark
							 									Pyspark
							 
Apache spark 在同一RDD上创建分区
									Apache Spark
							 
Apache spark Hbase表的javapairdd上的字数
									Apache Spark
							 									Hbase
							 
Apache spark 如何使用pyspark计算apache spark数据帧的大小？
									Apache Spark
							 									Pyspark
							 
Apache spark 我如何才能在没有“py4j.java\u网关：错误”的情况下优雅地完成pyspark单元测试？
									Apache Spark
							 									Pyspark
							 
Apache spark CDH 5.7.1上的齐柏林飞艇，使用数据帧时出现Spark 1.6.0空点异常
									Apache Spark
							 
Apache spark ApacheSpark on Oozie：提供额外的配置文件？
									Apache Spark
							 
Apache spark Apache Spark org.Apache.Spark.sql.DataFrameNaFunctions用法的任何示例。。drop（）不'；好像不行？
									Apache Spark
							 
Apache spark Spark:rdd.countApprox（）与rdd.count（）的比较
									Apache Spark
							 
Apache spark 火花性能优化
									Apache Spark
							 
Apache spark 如何通过struct的值查询DataFrame？
									Apache Spark
							 
Apache spark 使用Spark从teradata表读取数据时发生异常InInitializer错误
									Apache Spark
							 									Jdbc
							 									Teradata
							 
Apache spark 如何使用UDF返回多个列？
									Apache Spark
							 
Apache spark pyspark dataframe使用组获取多个字段计数
									Apache Spark
							 									Pyspark
							 
Apache spark foreach中的批处理或spark中的foreach分区
									Apache Spark
							 
Apache spark spark数据帧字符串到配置单元varchar
									Apache Spark
							 									Hive
							 
Apache spark 正在删除正在运行的Spark作业的配置单元暂存目录
									Apache Spark
							 									Hive
							 
Apache spark 数据帧是否知道列的类型？
									Apache Spark
							 									Dataframe
							 
Apache spark 如何优化将150GB数据加载到配置单元表中？
									Apache Spark
							 									Hadoop
							 									Memory
							 									Hive
							 
Apache spark gremlin控制台外的Janusgraph OLAP查询
									Apache Spark
							 									Cassandra
							 
Apache spark ApacheSpark（Scala）跨时间聚合不同的组
									Apache Spark
							 
Apache spark 从PySpark连接到Sharepoint的代码
									Apache Spark
							 									Sharepoint
							 									Pyspark
							 
Apache spark 在dataframe中修改后，将创建多少阶段和任务
									Apache Spark
							 
Apache spark 找不到解释器
									Apache Spark
							 									Pyspark
							 
Apache spark Spark访问是JSON对象的流
									Apache Spark
							 									Pyspark
							 
Apache spark spark pi示例运行，但未分配工作资源
									Apache Spark
							 									Pyspark
							 
Apache spark Spark SQL-默认情况下未启用配置单元
									Apache Spark
							 
Apache spark 为什么在基于一个有12个不同值的列进行分区之后，我会得到更多的分区
									Apache Spark
							 									Optimization
							 									Pyspark
							 
Apache spark 如何在pyspark中将多个列标题转换为新列？
									Apache Spark
							 									Pyspark
							 
Apache spark 如何使用pyspark中java代码的bytestring处理流式RDD输出
									Apache Spark
							 									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Joomla
Android Fragments
E Commerce
Mapreduce
Nativescript
Titanium
Encoding
Openid
Processing
Wso2
Graphql
Ibm Cloud
Tkinter
Stata
Merge
Playframework
Drupal 6
Llvm
Computer Science
Plone
Apache Camel
Symfony1
Text
Entity Framework Core
Ios7
Ruby On Rails
Discord
Ios5
Jsf 2
Amazon S3
Powerbi
Openerp
Design Patterns
Netty
Internationalization
Tridion
Command Line
Neo4j
Iis
Phantomjs
Machine Learning
Arrays
Laravel 4
Woocommerce
Rspec
Sencha Touch
Vb6
Gnuplot
File
Extjs4
Omnet++
Gps
Join
Cocos2d X
Mercurial
Express
Enums
Makefile
Jpa
Spring Security
Google Compute Engine
Path
Windows Phone 7
Cloud
Mqtt
Sencha Touch 2
Ionic2
Sass
Linux
.htaccess
Magento2
Racket
Jsf
Browser
Sockets
Coq
Jdbc
Stm32
Jupyter Notebook
Dependencies
Autohotkey
Azure Data Factory
Dependency Injection
Pagination
Sap
Performance
Silverlight
Inheritance
Opengl
Colors
Unity3d
.net Core
Floating Point
Udp
Applescript
Gwt
Office Js
Flash
Protractor
Orchardcms
Ssas
Reporting Services
Polymer
Cmd
Apache
Ruby On Rails 4
Tree
Airflow
Active Directory
Matrix
Cocos2d Iphone
Discord.py
Operating System
Windows Mobile
Jsp
Windbg
Symfony
Telerik
Amazon Web Services
Jira
Entity Framework
Axapta
Flask
Cocoa
Silverstripe
Objective C
Liferay
Datatables
Google Cloud Dataflow
Data Structures
Crystal Reports
Cloud Foundry
Multithreading
Cron
Uiview
Sonarqube
Jquery
Yii2
Search
Gmail
Debian
Sbt
Python
Sails.js
Sml
Optimization
Odata
Grep
Notifications
Bootstrap 4
Seo
Gtk
Clang
Google Sheets
Weblogic
C# 3.0
Npm
Binary
Graphviz
If Statement
Ibm Mq
Virtualbox
Gis
Playframework 2.0
Aframe
Openssl
Mips
Checkbox
Qt
Botframework
Google Calendar Api
Apache Storm
Oracle10g
Macros
Eclipse Plugin
Backbone.js
Vim
Project Management
Tabs
Cobol
Google Analytics
Server
Kdb
Perl
Internet Explorer 8
Twilio
Dataframe
Cygwin
Audio
Bash
Artificial Intelligence
Clearcase
Google Drive Api
Chart.js
C++
Dom
Methods
Xmpp
Eclipse Rcp
Video
Swiftui


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网