Dataframe 逗号分隔列上的Pypark聚合_Dataframe_Pyspark_Aggregate - Fatal编程技术网

Dataframe 逗号分隔列上的Pypark聚合

dataframe pyspark

Dataframe 逗号分隔列上的Pypark聚合,dataframe,pyspark,aggregate,Dataframe,Pyspark,Aggregate,我有一个巨大的数据框，其中有两列：“NAME”，“VALUE”。“NAME”列的行值之一是“X，Y，V，A” 我想转换我的数据帧，使“NAME”值为列，而“VALUE”的平均值为行值我使用了pivot函数： df1=df.groupby（'DEVICE'，'DATE'）.pivot（'NAME'）.avg（'VALUE'））除了“X，Y，V，A”之外的所有名称值都能很好地处理上述内容。我不知道如何分离“X，Y，V，A”的4个值，并根据单个值进行聚合。IIUC，您需要首先拆分和分解字符串：

我有一个巨大的数据框，其中有两列：

“NAME”

，

“VALUE”

。

“NAME”

列的行值之一是

“X，Y，V，A”

我想转换我的数据帧，使

“NAME”

值为列，而

“VALUE”

的平均值为行值

我使用了pivot函数：

df1=df.groupby（'DEVICE'，'DATE'）.pivot（'NAME'）.avg（'VALUE'））

除了

“X，Y，V，A”

之外的所有名称值都能很好地处理上述内容。我不知道如何分离

“X，Y，V，A”的4个值，并根据单个值进行聚合。
IIUC，您需要首先拆分和分解字符串：
从pyspark.sql.functions导入拆分、分解
df=df.withColumn（“NAME”，explode（拆分（“NAME）”，“，”））

现在，您可以分组和旋转：
df1=df.groupby（'DEVICE'，'DATE'）.pivot（'NAME'）.avg（'VALUE'））




[pyspark]相关文章推荐



                                                        
缓冲区--pyspark 2.0的状态为START=START的非法字符0x0
pyspark 
如何从pyspark.sql.function中提取值？
pyspark 
pyspark unindex一个热编码和组装列
pyspark 
Pyspark spark中表的Alter模式
pyspark 
Pyspark 基于来自当前行和上一行的列创建计算列
pyspark 
pyspark中的窗口对象
pyspark 
Pyspark 无法使用kinesis stream在spark streaming中创建流
pyspark 
Pyspark列转换：计算列中每个组的百分比变化
pyspark 
Pyspark 将SQL Case语句转换为Spark
pyspark 
pyspark如何读取引擎盖下的整个目录？
pyspark 
Pyspark 当流终止时，事件集线器到databricks错误？
pyspark 
PySpark数据框中创建的二进制列不能用作筛选器？
pyspark 
Pyspark MVC核心Rest API查询Azure数据库
pysparkasp.net-core-mvc 
pyspark:TypeError:条件应为一列，否则为
pyspark 
Pyspark SparkException-卡方检验期望分类值
pyspark 
将ETL与PySpark粘合以将bigint更改为日期时间
pyspark 
pyspark 3.0-应用OneVsRest模型时出现PythonUDF Runner错误
pyspark 
PySpark覆盖方法发布同一表格
pysparkhive 
Pyspark-发布用“-”读取excel数据；useHeader，"&引用；假；
pyspark 
Pyspark计数包括空值
pyspark 
                                       





随机文章推荐



                                                        
Dictionary 比较两个字典的值
dictionary 
Dictionary 使用一个字典在另一个字典中获取值
dictionary 
Dictionary 如何从该字符串中提取值72
dictionary 
Dictionary 具有选项参数的函数，或使用空字典作为默认参数
dictionaryswift 
Dictionary 无法使用映射c+解析字段“first”+；
dictionary 
Dictionary 加入“；不是"；到Clojure中顺序中的每个项目
dictionaryclojurefunctional-programminglisp 
Dictionary 基线图中的横向对齐'；s pcolormesh方法-功能还是错误？
dictionarymatplotlib 
Dictionary 从Clojure中的变量创建映射
dictionaryclojure 
Dictionary 单击操作按钮时，地图不显示
dictionary 
Dictionary 递归地将映射转换为关键字列表
dictionaryrecursionelixir 
Dictionary 此处地图地理代码的问题
dictionaryhere-api 
Dictionary 如何打开字典可选值？
dictionaryswift3 
Dictionary 如何在Golang中为并发读/写锁定特定映射的索引
dictionarygoconcurrencyparallel-processing 
Dictionary 运算符'；[]和#x27；isn'；t为类定义'；对象'；。飞奔
dictionaryobjectdart 
Dictionary 如何安全地允许当前访问go中的嵌套地图？
dictionarygoconcurrency 
Dictionary 如何使用python netcdf4和xFF1F将OrderedDict写入netcdf；
dictionary 
Dictionary 如何在前缀后添加任何符号？
dictionaryflutter 
Dictionary 传单实时弹出数据
dictionaryleaflet 
Dictionary 为映射键分配了多少内存？ie是否将映射[uint16]uint16为每个键2个字节或存储为uint32/64？
dictionarygomemory


                                        

                                        
                                        


                                                
                                                        [dataframe]相关推荐
                                                        
Dataframe sparksql：生成的分区数似乎很奇怪
									Dataframe
							 									Pyspark
							 
Dataframe 如何获取spark行的值_计数？
									Dataframe
							 									Apache Spark
							 									Pyspark
							 
通过填充现有列在Pyspark Dataframe中创建新列
									Dataframe
							 									Pyspark
							 
Dataframe 从R中的数字列向量创建因子
									Dataframe
							 									R
							 									For Loop
							 
Dataframe 使用“新建”创建新列；“其他变量”；
									Dataframe
							 
在Julia DataFrame'；中，将度量变量置于id变量之前的原因是什么；s堆栈函数？
									Dataframe
							 									Julia
							 
Dataframe 如何将伪代码格式的编码规则（带大括号的文本等）转换为数据帧
									Dataframe
							 									Text
							 
Dataframe 来自HappyBase数据Hbase的PySpark数据帧
									Dataframe
							 									Pyspark
							 									Hbase
							 
与该行另一列中的值匹配的列的Dataframe计数
									Dataframe
							 
Dataframe Pyspark-将数据帧导出为文本
									Dataframe
							 									Apache Spark
							 									Pyspark
							 
Dataframe 如何获取数据帧的分区数
									Dataframe
							 									Apache Spark
							 
不使用ID创建新的spark DataFrame列
									Dataframe
							 									Apache Spark
							 									Pyspark
							 
Dataframe 如何修改spark中的特定列？
									Dataframe
							 									Apache Spark
							 									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Clojure
Logic
Sml
Time Complexity
Installation
Lisp
Windows 7
Phpstorm
Vaadin
Matplotlib
Concurrency
Google Maps Api 3
Leaflet
Sed
Cygwin
Sprite Kit
Command Line
Graphql
Mono
Mariadb
Windows Services
Unix
Pentaho
Unit Testing
Apache
Google App Engine
Oracle11g
If Statement
Facebook Graph Api
Magento
Ipython
Templates
Geolocation
Apache Flex
Processing
Racket
Python 3.x
Camera
Pagination
Grid
Resharper
Visual C++
Cordova
Xcode
Jestjs
Character Encoding
Stm32
Windows Mobile
Javafx 2
Ubuntu
Postman
Logstash
User Interface
Image
Snmp
Adobe
Perforce
Yii2
Parallel Processing
Install4j
D
Junit
Jqgrid
Neural Network
Regex
Entity Framework Core
Nativescript
Rdf
Isabelle
Jira
Dynamic
Google Chrome Extension
Xsd
Nest
Woocommerce
Visual Studio Code
Vhdl
Autodesk Forge
Oracle Apex
Sparql
Plot
Safari
Machine Learning
Requirejs
Cloud Foundry
Mapreduce
Editor
File
Gatsby
Jhipster
Xampp
Marklogic
C++
Go
Qt4
Julia
R
Google Colaboratory
Grafana
X86
Mdx
Hive
Orchardcms
Python Sphinx
Openssl
Mercurial
Stanford Nlp
Phpunit
Webrtc
Asp.net
Sencha Touch 2
Colors
Xpages
Database Design
Maven 2
Arrays
Jaxb
Linq
Spring Mvc
Dynamics Crm 2011
Sonarqube
Tensorflow
Titanium
Clearcase
Git
Maps
Internet Explorer
Compilation
Nlp
Vagrant
Automation
Influxdb
Jboss
Prolog
Html
Model
Swing
Pointers
Axapta
Parse Platform
Swift
Ios7
Testng
Openlayers 3
Documentation
Osgi
Grep
Sms
Azure Functions
Swift2
Numpy
Cucumber
Jwt
Air
Functional Programming
Notepad++
Sharepoint 2007
Debugging
Random
Language Agnostic
Openshift
Activerecord
Chef Infra
Swiftui
Tkinter
Web Services
Pdf
Xamarin.ios
Nsis
Bison
Opencart
Drools
Bash
Protocol Buffers
Tsql
Graphics
Tree
Sencha Touch
Rx Java
Deployment
Drupal
Jquery Mobile
Servlets
Xamarin.android
Stored Procedures
Fluent Nhibernate
Memory Leaks
Twitter Bootstrap
Amazon Redshift
Dask
Linkedin
Couchbase
Asp.net Mvc 4
Ruby
Github
Xml
Loopbackjs
Phpmyadmin
Facebook
Computer Science
Websphere


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网