Apache spark 聚合spark数据帧并基于数组类型列中是否存在值进行计数_Apache Spark_Apache Spark Sql - Fatal编程技术网

Apache spark 聚合spark数据帧并基于数组类型列中是否存在值进行计数

apache-spark

Apache spark 聚合spark数据帧并基于数组类型列中是否存在值进行计数,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我有一个带有数组类型列的spark数据帧： scala> mydf.printSchema root |-- arraycol: array (nullable = true) | |-- element: string (containsNull = true) |-- id: integer (nullable = false) 我现在需要通过“id”聚合此数据帧，并根据数组中是否存在特定值进行计数。我试着这么做： val aggdata = mydf.groupBy("

我有一个带有数组类型列的spark数据帧：

scala> mydf.printSchema
root
 |-- arraycol: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- id: integer (nullable = false)

我现在需要通过“id”聚合此数据帧，并根据数组中是否存在特定值进行计数。我试着这么做：

val aggdata = mydf.groupBy("id").
  agg(
    count(when($"arraycol" contains "someval", $"arraycol")).as("aggval"))

这似乎不起作用。任何输入我如何能做到这一点？

有

数组\u包含的方法来测试条件：
val df=Seq（（1，Seq（“a”，“b”），（1，Seq（“b”），（2，Seq（“b”））。toDF（“id”，“arrayCol”）
//df:org.apache.spark.sql.DataFrame=[id:int，arrayCol:array]
df.show
+---+--------+
|id | arrayCol|
+---+--------+
|1 |[a，b]|
|1 |[b]|
|2 |[b]|
+---+--------+
df.groupBy（“id”）.agg(
计数（当（数组_包含（$“arrayCol”，“a”），$“arrayCol”）时）。作为（“hasA”）
).表演
+---+----+
|哈萨|
+---+----+
|  1|   1|
|  2|   0|
+---+----+

或使用求和
：
df.groupBy（“id”）.agg(
总和（当（数组_包含（$“arrayCol”，“a”），1时）。否则（0））。作为（“hasA”）
).表演
+---+----+
|哈萨|
+---+----+
|  1|   1|
|  2|   0|
+---+----+
请提供样本输入和预期输出，以便您回复！不幸的是，我们正在我的组织中使用2.3。自spark 1.5版本起，spark？array_包含的该版本上的任何选项都可用。所以你应该好好使用它。@RamdevSharma啊。正确的。与2.4中添加的所有新数组函数混淆




[moodle]相关文章推荐



                                                        
Moodle 从教师角度创建新课程
moodle 
Moodle使用选定值填充multiselect
moodle 
将moodle 2.6更新为2.7
moodle 
根据用户配置文件字段有条件地限制课程在Moodle上显示？
moodle 
Moodle编辑导航栏
moodle 
如何在moodle聊天中从参与者姓名中删除参与者档案链接？
moodle 
Moodle插件如何将项目添加到；课程管理“；列表
moodle 
Moodle数据库过载错误
moodle 
如何减小Moodle的响应大小&x27；s"；“cron”；页
moodle 
Moodle将scorm数据保存到单独的自定义表中
moodle 
                                       





随机文章推荐



                                                        
Jmeter 覆盖HTTP响应头
jmeter 
Jmeter 在不同的测试计划之间共享配置元素
jmeter 
Jmeter-吞吐量控制器下“每用户”复选框的功能是什么？
jmeter 
无法增加jmeter中的平均吞吐量
jmeter 
如果使用jmeter在我的情况下条件不起作用
jmeter 
Jmeter跨网络的不一致结果
jmeter 
JMeter GUI-使用NewDriver执行无法查看函数帮助器对话框
jmeter 
__V表示jmeter中的属性变量
jmeter 
Jmeter 如何在10分钟后逃离While控制器
jmeter


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
Apache spark 用于选择除某些列以外的所有列的配置单元UDF
									Apache Spark
							 									Hive
							 
Apache spark 用以前的记录填充空值-Netezza SQL
									Apache Spark
							 									Hive
							 
Apache spark 保存到拼花地板子分区
									Apache Spark
							 
Apache spark sparksql中的缓存表
									Apache Spark
							 
Apache spark Dataproc上的处理速度非常慢，在本地计算机上为9小时，而在本地计算机上为3分钟
									Apache Spark
							 									Google Cloud Platform
							 
Elasticsearch 从卡夫卡到弹性搜索索引的火花流
									Apache Spark
							 									Apache Kafka
							 
Apache spark 在Spark Streaming中并行/异步执行多个操作
									Apache Spark
							 									Cassandra
							 
Apache spark Spark列出所有叶节点，即使在分区数据中也是如此
									Apache Spark
							 									Amazon S3
							 
Apache spark spark-nvl功能数据类型不匹配错误
									Apache Spark
							 
Apache spark 这个RDD中的前导空格来自何处？如何避免它？
									Apache Spark
							 									Pyspark
							 
Apache spark Spark 2.1：如何在DataFrameWriter partitionBy中提供多列
									Apache Spark
							 
Apache spark Pypark在所有执行器上均匀分配负载
									Apache Spark
							 									Pyspark
							 
Apache spark Spark Jobserver-压力测试-异步错误后响应：akka.pattern.AskTimeoutException
									Apache Spark
							 
Apache spark Neo4j:会话的工作进程..已崩溃。Java堆空间OutOfMemoryError
									Apache Spark
							 									Neo4j
							 
Apache spark SparkSubmitor操作器升高“；找不到dag“id”；运行时出错
									Apache Spark
							 									Airflow
							 
Apache spark 火花读数拼花地板中缺少立柱
									Apache Spark
							 
Apache spark 使用spark scala批量获取HBase
									Apache Spark
							 									Hbase
							 
Apache spark Pyspark显示未在Jupyter中显示图表
									Apache Spark
							 									Pyspark
							 
Apache spark Apache Spark流媒体-reduceByKey、groupByKey、aggregateByKey还是combineByKey？
									Apache Spark
							 
Apache spark 如何基于分隔符将数据帧中的行拆分为多行
									Apache Spark
							 
Apache spark HDInsigh Spark如何处理以下代码
									Apache Spark
							 									Pyspark
							 
Apache spark 通过spark submit在Kubernetes中找不到Uber jar
									Apache Spark
							 									Kubernetes
							 									Sbt
							 
Apache spark 从Docker映像运行JavaFX Spark应用程序时出错
									Apache Spark
							 									Javafx
							 
Apache spark 如何从Spark窗口分区中选择不同的行
									Apache Spark
							 
Apache spark 在Google Colab中使用图形框架
									Apache Spark
							 									Pyspark
							 									Google Colaboratory
							 
Apache spark 如何在pyspark中使用带周期列的fillna函数
									Apache Spark
							 									Pyspark
							 
Apache spark Spark 2.2在每个分区中写入少量文件
									Apache Spark
							 									Pyspark
							 
Apache spark 带合并的spark shuffle分区
									Apache Spark
							 
Apache spark 循环3次，每次向spark DF中的新列添加一个新值
									Apache Spark
							 									Pyspark
							 
Apache spark 正在写入两个流式查询的主题的Readstream
									Apache Spark
							 									Apache Kafka
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Ocaml
Windows Installer
Android Layout
Validation
Macos
Swiftui
Directx
Smalltalk
Ruby
Windows
Sharepoint 2010
Dictionary
Eclipse Rcp
Service
Yocto
Wicket
Composer Php
Open Source
Download
Ag Grid
Asp.net Mvc 5
Enums
Kotlin
Pagination
Resharper
Silverstripe
Xcode4
Phantomjs
Plugins
Google Cloud Firestore
Xamarin.ios
Apache Flex
Spring
Asp.net Mvc 4
C++11
.htaccess
Formatting
Ssh
Powershell
Apache Pig
Codenameone
Camera
Prolog
Nativescript
Transactions
Image Processing
Polymer
EmptyTag
Haskell
Opencv
Lambda
Redis
Binary
Jsf
Opencart
Xampp
Reporting Services
Content Management System
Moodle
Spring Mvc
Video
Jestjs
Protocol Buffers
Apache Spark
Gradle
Grid
Visual C++
Zend Framework
Data Binding
Laravel 4
Windows 7
Firefox
Highcharts
Workflow
Mule
Robotframework
Orientdb
Xpath
Odata
Unit Testing
Oracle Apex
Firefox Addon
Nhibernate
Django Rest Framework
Pyspark
Language Agnostic
Csv
Mvvm
Xna
Url Rewriting
Razor
Stanford Nlp
Woocommerce
Solr
Sql Server 2008
Hybris
Uwp
C++
Virtual Machine
Excel
Plsql
Hadoop
Racket
Ms Access
Sharepoint
Botframework
Charts
Visual Studio 2017
D3.js
Speech Recognition
Math
Telerik
Akka
Corda
Ssrs 2008
Puppet
Report
Statistics
Svg
Exception Handling
Serial Port
Active Directory
Asterisk
Docusignapi
Symfony
Google Colaboratory
File Io
Eclipse
Algorithm
Linkedin
Stored Procedures
List
Testing
Google Cloud Storage
Tcl
Design Patterns
Winforms
Jquery Ui
Google Calendar Api
Arduino
Ruby On Rails
Phpmyadmin
Chef Infra
Dialogflow Es
Jsf 2
Llvm
Combobox
Pine Script
Protractor
Knockout.js
Gmail
Ruby On Rails 4
Shiny
Jquery Mobile
Openlayers 3
Animation
Stripe Payments
Twilio
Swing
Amazon Web Services
Extjs4
Jhipster
Architecture
Leaflet
Applescript
Ecmascript 6
Aframe
Twitter Bootstrap 3
Orchardcms
Next.js
Coldfusion
Rally
Meteor
Azure Sql Database
Pytorch
Websocket
Sublimetext3
Passwords
Memory Leaks
Windows Phone
Ignite
Video Streaming
Usb
Amazon Dynamodb
Adobe
Qt
Ftp
Swift2
Heroku
Glsl
Cron
Actionscript 3
Dojo
Types
Breeze
Asp.net Web Api
Class
Signalr
Forms
Perforce
Concurrency


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网