Apache spark 将数据帧按键聚合列值放入列表_Apache Spark_Dataframe_Apache Spark Sql - Fatal编程技术网

Apache spark 将数据帧按键聚合列值放入列表

apache-spark dataframe

Apache spark 将数据帧按键聚合列值放入列表,apache-spark,dataframe,apache-spark-sql,Apache Spark,Dataframe,Apache Spark Sql,我有一个数据帧，看起来像这样： +-----------------+-------+ |Id | value | +-----------------+-------+ | 1622| 139685| | 1622| 182118| | 1622| 127955| | 3837|3224815| | 1622| 727761| |

我有一个

数据帧

，看起来像这样：

+-----------------+-------+
|Id               | value |
+-----------------+-------+
|             1622| 139685|
|             1622| 182118|
|             1622| 127955|
|             3837|3224815|
|             1622| 727761|
|             1622| 155875|
|             3837|1504923|
|             1622| 139684|
+-----------------+-------+

我想把它变成：

    +-----------------+-------------------------------------------+
    |Id               | value                                     |
    +-----------------+-------------------------------------------+
    |             1622|139685,182118,127955,727761,155875,139684  |
    |             3837|3224815,1504923                            |
    +-----------------+-------------------------------------------+

这是否仅适用于

DataFrame

函数，还是我需要将其转换为和

RDD

？

使用

DataFrame

API可以实现。尝试：

df.groupBy(col("Id"))
  .agg(collect_list(col("value")) as "value")

如果您想要一个由

，

分隔的

字符串，而不是数组，请尝试以下操作：
df.groupBy(col("Id"))
  .agg(collect_list(col("value")) as "value")
  .withColumn("value", concat_ws(",", col("value")))

如所示，您可以使用Scala/JavaDataFrame
API中的collect\u list
函数
但是，也可以使用相同的函数，但使用Spark SQL API：
spark.sql("SELECT id, collect_list(value) FROM df GROUP BY id")

谢谢大卫，太棒了！你导入什么（在独立应用程序中）




[dataframe]相关文章推荐



                                                        
Dataframe 如何计算每行的最大值，并返回一个最大值的列和另一个具有相应列名的列？
dataframepyspark 
Dataframe “如何修复”；org.apache.spark.sql.execution.datasources.orc.OrcColumnVector.getLong（OrcColumnVector.java:141）上的java.lang.NullPointerException；
dataframeapache-spark 
Dataframe 按常量值对数据帧的列进行除法
dataframeapache-sparkpyspark 
PySpark-DataFrame.count（）是否会导致缓存（）？
dataframeapache-sparkpyspark 
Dataframe 如何在Spark数据框中添加具有当前日期的额外列
dataframeapache-sparkpyspark 
Dataframe csv的pyspark模式验证
dataframepyspark 
Dataframe Julia中的多列数据透视表
dataframejulia 
Dataframe 如何获得pyspark的平均值？
dataframeapache-sparkpyspark 
                                       





随机文章推荐



                                                        
Visual studio 2012 如何在Visual Studio 2012中使用PEX
visual-studio-2012 
Visual studio 2012 Visual Studio 2012-在文件之间切换时保持搜索框打开
visual-studio-2012 
Visual studio 2012 在VisualStudio中运行的单元测试的输出
visual-studio-2012 
Visual studio 2012 从网页中提取链接&；在Visual Studio VB中写入控制台
visual-studio-2012 
Visual studio 2012 如何更改visual studio 2012 update 2淘汰版js文本颜色？
visual-studio-2012 
Visual studio 2012 如何设置<；PrivilegedApplications>；设备元数据中的标记？
visual-studio-2012windows-8windows-store-apps 
Visual studio 2012 Visual Studio 2012在使用CTRL F时崩溃
visual-studio-2012 
Visual studio 2012 Typescript未自动编译-VS 2012 SP3-请参阅屏幕截图
visual-studio-2012typescript 
Visual studio 2012 VS2012方法通过拖放进行组织
visual-studio-2012 
Visual studio 2012 在同一解决方案中与多个项目共享连接字符串
visual-studio-2012 
Visual studio 2012 为什么我不能从CSS文件中获取CSS类intellisense？
visual-studio-2012visual-studio-2013 
Visual studio 2012 如何向依赖项添加适当的引用，使其在每个人的机器上（包括构建服务器）工作？
visual-studio-2012jenkins 
Visual studio 2012 为使用ClickOnce部署的类库设置自定义应用程序图标
visual-studio-2012dll 
Visual studio 2012 TFS获取最新信息'；不要复制文件
visual-studio-2012tfs 
Visual studio 2012 警告LNK4075当一个C++/CLI项目使用/ZI（编辑并继续）引用静态库项目
visual-studio-2012c++-cli 
Visual studio 2012 visualstudio的访问冲突和奇怪行为
visual-studio-2012memory-managementmemory-leaksdirectx 
Visual studio 2012 如何避免VS 2012的“超时”
visual-studio-2012 
Visual studio 2012 CMake：如何启用构建时间，例如Visual Studio
visual-studio-2012cmake 
Visual studio 2012 Visual Studio Express 2012赢得'；t安装Win7
visual-studio-2012 
Visual studio 2012 VS2012错误中的Tesseract OCR
visual-studio-2012


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 像Spark中的现有RDD一样分发新RDD？
									Apache Spark
							 
Apache spark 如何远程运行Apache Spark shell？
									Apache Spark
							 
Apache spark 如何删除pyspark dataframe中的列
									Apache Spark
							 									Pyspark
							 
Apache spark Spark在RDDs中获取文件名
									Apache Spark
							 
Apache spark 使用stratio和spark从Aerospike读取数据时无法计算RDD
									Apache Spark
							 
Apache spark 如何将类型行转换为向量以馈送到KMeans
									Apache Spark
							 									Pyspark
							 
Apache spark SparkContext.setMaster到远程EMR
									Apache Spark
							 
Apache spark 与音乐相关的twitter数据情感分析功能
									Apache Spark
							 									Twitter
							 									Nlp
							 
Apache spark spark为什么不在多个节点上重新划分数据帧？
									Apache Spark
							 									Pyspark
							 
Apache spark structured streaming 2.1.0 kafka驱动程序适用于带--包的纱线，但在独立群集模式下有问题
									Apache Spark
							 
Apache spark 我们如何在Spark Core中通过两个不同的字段实现排序？
									Apache Spark
							 
Apache spark Mqtt+；火花流与发电机
									Apache Spark
							 									Amazon Dynamodb
							 									Mqtt
							 
Apache spark 为什么在Spark流中连接后的分区数不同
									Apache Spark
							 
Apache spark Spark java.lang.StackOverflowerr关于Power迭代群集
									Apache Spark
							 
Apache spark 尝试使用Spark将CSV文件转换为拼花地板文件
									Apache Spark
							 
Apache spark 如果配置单元表中存在多个分区，则Spark SQL（通过HiveContext进行配置单元查询）插入覆盖不会覆盖现有数据
									Apache Spark
							 									Hive
							 
Apache spark 枚举Spark中连续相等值的块
									Apache Spark
							 									Dataframe
							 									Pyspark
							 
Apache spark 在Jupyter笔记本中运行PypSpark和Kafka
									Apache Spark
							 									Apache Kafka
							 									Jupyter Notebook
							 
Apache spark 使用Psycopg2:Can'；将Spark数据帧写入红移时出错；t pickle psycopg2.extensions.cursor对象
									Apache Spark
							 									Pyspark
							 
Apache spark 记录flink（slf4j）和spark（log4j）平台的通用代码
									Apache Spark
							 									Logging
							 									Apache Flink
							 
Apache spark 我可以使用哪些工具/框架来监视和提醒spark作业？
									Apache Spark
							 
Apache spark Spark结构化流式处理大型文件
									Apache Spark
							 									Apache Kafka
							 
Apache spark Spark 2.4.0到_avro/从_avro反序列化不使用Seq（）.toDF（）
									Apache Spark
							 
Apache spark Spark 2.2正在使用旧的com.google.guava库版本：14，但我需要在SBT项目中使用guava版本18及以上
									Apache Spark
							 									Sbt
							 
Apache spark 聚合ArrayType行由使用高阶函数的浮点组成
									Apache Spark
							 
Apache spark 从collect_集合创建列值的唯一方式
									Apache Spark
							 									Pyspark
							 
Apache spark pyspark：是否可以在交叉验证中启用日志信息？
									Apache Spark
							 									Pyspark
							 
Apache spark Pyspark从CrossValidator中的每个子模型检索度量（AUC ROC）
									Apache Spark
							 									Pyspark
							 
Apache spark Spark Streaming接收器仅处理一条记录
									Apache Spark
							 
Apache spark apachespark使用SQL函数对数据进行分区
									Apache Spark
							 									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Floating Point
Entity Framework 4
Url Rewriting
Printing
Osgi
Kernel
Javafx
Windows 8
Ant
Blazor
Nestjs
Calendar
Salesforce
Entity Framework Core
Windows Mobile
Usb
Isabelle
Ibm Cloud
Linq To Sql
Makefile
Transactions
Awk
Automation
Xna
Playframework 2.0
Coq
Ckeditor
Netbeans
Logging
Stata
Drupal
Sharepoint
Machine Learning
Gstreamer
Parameters
Delphi
Julia
Mysql
Java Me
Wcf
Azure Cosmosdb
Autocomplete
Ssrs 2008
Collections
Sql Server
Fluent Nhibernate
Wpf
Dataframe
Zend Framework
Seo
Pyspark
Razor
Cluster Computing
Ios4
Computer Vision
Sms
Arduino
Timer
Video Streaming
Iphone
Azure Active Directory
Error Handling
Pandas
Adobe
Windows Phone 8.1
Phpstorm
Ms Access
Mercurial
Cloud Foundry
Unicode
Scikit Learn
Drupal 7
Gis
User Interface
Twig
Module
Resharper
Python Sphinx
Plsql
Laravel 5
Vb6
Silverlight
Sql Server 2008
Ecmascript 6
C++ Cli
Replace
Nosql
Google Calendar Api
Instagram
Docusignapi
Teamcity
Geolocation
Operating System
Time Complexity
Safari
Azure Service Fabric
Zend Framework2
Passwords
Lua
Data Structures
Notifications
Button
Visual Studio 2015
Vuejs2
Matplotlib
Dotnetnuke
Aframe
Flash
Assembly
Vue.js
Web Scraping
Corda
Azure Devops
Excel Formula
List
View
Canvas
Dependency Injection
Vb.net
Drop Down Menu
Ipython
Elm
Azure Data Factory
Sip
Navigation
Jquery
Optimization
Concurrency
Opencl
Google Drive Api
Knockout.js
Kubernetes
Scrapy
Cucumber
Webpack
Reactjs
Testing
Mobile
Tfs
Applescript
Function
Json
Server
Phpunit
Playframework
Eclipse
Https
Windows Installer
Heroku
Nhibernate
Phantomjs
Arangodb
Download
Ide
Latex
Version Control
Magento
Yaml
C# 3.0
Intellij Idea
Woocommerce
Dialogflow Es
Coffeescript
Exchange Server
Sparql
Spring Mvc
Perforce
Orchardcms
Ionic Framework
Xsd
Colors
Octave
Uiview
Android Studio
Ember.js
Marklogic
Checkbox
Codeigniter
Angular Material
Cocos2d Iphone
Debian
Sass
Lambda
Phpmyadmin
Compiler Errors
Oauth 2.0
Monitoring
Ios
Google Chrome
Eclipse Rcp
Microsoft Graph Api
Hash
Stm32
Azure Sql Database
Input
Search
Performance
Cmd
Asynchronous
Couchbase
Visual Studio 2008


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网