Scala 按密钥和StatCounter进行有效分组_Scala_Apache Spark - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 按密钥和StatCounter进行有效分组_Scala_Apache Spark - Fatal编程技术网

Scala 按密钥和StatCounter进行有效分组

scala apache-spark

Scala 按密钥和StatCounter进行有效分组,scala,apache-spark,Scala,Apache Spark,我使用ApacheSpark和scala按参数聚合值，如下所示。这会不断向“列表”中添加值是否有更有效的方法通过键和StatCounter获取列表 val predictorRawKey = predictorRaw.map { x => val param = x._1 val val: Double = x._2.toDouble (param, val) }.mapValues(num => List( num) ) .

我使用ApacheSpark和scala按参数聚合值，如下所示。这会不断向“列表”中添加值是否有更有效的方法通过键和StatCounter获取列表

val predictorRawKey = predictorRaw.map { x =>
      val param = x._1
      val val: Double = x._2.toDouble
      (param, val)
    }.mapValues(num => List( num) )
     .reduceByKey((l1, l2) => l1 ::: l2)
     .map { x => x._1, StatCounter(x._2.iterator))

首先，您不应该使用

reduceByKey

来分组值。省略映射端聚合并直接使用

groupByKey

更有效

幸运的是，

StatCounter

可以以流式方式工作，根本不需要对值进行分组：

import org.apache.spark.util.StatCounter

val pairs = predictorRawKey.map(x => (x._1, x._2.toDouble))

val predictorRawKey = pairs.aggregateByKey(StatCounter(Nil))(
  (acc: StatCounter, x: Double) => acc.merge(x),
  (acc1: StatCounter, acc2: StatCounter) => acc1.merge(acc2)
)

哦，我真的很感激！我认为reduceByKey内部已经有了类似（acc，x）=>acc.merge（x）的操作。您能简要解释一下reduceByKey和aggregateByKey之间的区别吗。一般来说，我们可以说aggregateByKey更高效（如果它稳定且快速，我会说“高效”），谢谢！这都是关于类型的<代码>配对is

RDD[（T，Double）]

和

predictrawkey

is

RDD[（T，StatCounter）]

。由于类型不匹配，因此不能使用

reduceByKey

。您可以

将对映射到RDD[（T，StatCounter）]
和reduceByKey
，但没有理由创建大量临时对象。




[apache spark]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
Android fragments Android backstack无法处理同一活动中的多个片段
android-fragments 
Android fragments 需要帮助时，尝试调用虚拟方法'；void android.widget.ListView.setAdapter（android.widget.ListAdapter）和#x27；关于空对象引用
android-fragmentsandroid-studio 
Android fragments MvvmCross:Tab在Android中的实现
android-fragmentsxamarinxamarin.android


                                        

                                        
                                        


                                                
                                                        [scala]相关推荐
                                                        
Scala 奇怪的case类语法
									Scala
							 									Xpath
							 
具有边界的泛型类的Scala类型不匹配
									Scala
							 
如何反映scala元组类型变量？
									Scala
							 									Reflection
							 
如何检查Scala对象是否是A或B的实例？
									Scala
							 									Types
							 
Scala 从riak中的resultset中获取特定值的总和
									Scala
							 
Scala 如何通过继承在akka中传递隐式参数？
									Scala
							 
为什么'；Scala编译器不接受这个lambda作为参数吗？
									Scala
							 									Generics
							 									Lambda
							 
Scala 为什么其中一个会分裂&；过滤工作，而不是其他？
									Scala
							 									Filter
							 
如何在Scala中用一个字符填充向量中缺少的元素的字符串？
									Scala
							 
Scala 访问地图内部地图和处理可能异常的有效方法
									Scala
							 
PlayFramework，Scala for view层中的循环。如何获取索引值？
									Scala
							 									Playframework
							 
Scala 将数据表缩放到地图列表
									Scala
							 									Cucumber
							 
Scala 在Spark中保存文件
									Scala
							 									Hadoop
							 									Apache Spark
							 
Scala 如何安全地拆分字符串并检查两个值
									Scala
							 
Scala：如何检查对象是否是数组的实例
									Scala
							 
Scala：如何将protobuf ByteString对象转换为字节？
									Scala
							 									Protocol Buffers
							 
转换Scala中所有数据帧列的有效方法
									Scala
							 									Apache Spark
							 
Scala 使用sbt在Spark中构建子项目
									Scala
							 									Apache Spark
							 									Build
							 									Sbt
							 
spark scala映射内的代码值
Scala>val custdata=sc.textFile（“file:///stage/Sales/lego/test/new/spark_test/testing1.csv")
custdata:org.apache.spark.rdd.rdd[String]=file:///stage/Sales/lego/test/new/spark_test/testing1.csv MapPartitionsRDD[8]位于文本文件的位置：27
scala>custda
									Scala
							 									Apache Spark
							 
Scala Spark：获取操作/写入结束的时间戳
									Scala
							 									Apache Spark
							 									Time
							 
Scala 请在此建议编写匿名函数的最佳方法
									Scala
							 									Apache Spark
							 									Functional Programming
							 									Mapreduce
							 
scala-foldLeft用序列号填充连续的零间隙
									Scala
							 									Functional Programming
							 
比较2个Scala 2D数组：获取错误：值SameeElements不是（String，String）的成员
									Scala
							 									Apache Spark
							 
Scala 如何知道unmarshell是否成功
									Scala
							 
Scala 类型从隐式类中删除
									Scala
							 
Scala 在ReactiveMongo 16.6中处理错误作为将来的[结果]
									Scala
							 
Scala 喷洒客户端请求超时
									Scala
							 
Scala EMR Spark-libcrypto.so.1.0.0的不满意链接
									Scala
							 									Apache Spark
							 
Scala 使用Databricks终止结构化流媒体队列
									Scala
							 									Apache Kafka
							 
用ZIO在Scala中组合多重期货和期权
									Scala
							 									Functional Programming
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
D
Netty
Laravel 5
Ios6
Clojure
Sass
Filter
Algorithm
Syntax
Ruby On Rails 3
Drop Down Menu
Caching
Clearcase
Kentico
Arm
Amp Html
Installation
Applescript
Security
Webgl
Atom Editor
Report
Macos
Fortran
Xamarin.ios
Core Data
Csv
Tridion
Parsing
Cocoa
Javafx
Pyspark
Inheritance
Redirect
Codeigniter
Printing
Boost
Apache Flink
Html5 Canvas
Material Ui
Apache
Performance
Http
Sencha Touch 2
Gps
Google Colaboratory
Google Cloud Platform
Android
Gremlin
Sharepoint
String
Polymer
Camera
Paypal
Winapi
.htaccess
Neo4j
Statistics
Notepad++
Jdbc
Solr
Heroku
Visual Studio 2012
Spotify
Io
Stripe Payments
Programming Languages
Permissions
Text
Azure Ad B2c
Svn
Plsql
Active Directory
Air
Tree
Web Applications
Download
Openid
Node.js
Sdk
R
Aframe
Coldfusion
Websocket
Rally
Windows Mobile
Android Studio
Aws Lambda
Sorting
Testng
F#
Drupal 7
Sqlite
Tfs
Operating System
Directx
Wolfram Mathematica
Outlook
Ocaml
Actions On Google
Excel
Amazon Dynamodb
Login
Swift2
Eclipse Plugin
Grep
Symfony1
Iframe
Interface
Quickbooks
Mono
Google Cloud Firestore
Requirejs
Spring Mvc
Menu
X86
Ibm Mq
Video
Networking
Javafx 2
Maven
.net 4.0
Gatsby
Opencl
Process
Telerik
Navigation
Zend Framework
Routes
Leaflet
C++
Sapui5
Flutter
Python Sphinx
Ruby
Hadoop
Nservicebus
Xamarin.android
Random
Flash
Rabbitmq
Regex
Xamarin.forms
Mule
Omnet++
Botframework
Jvm
Triggers
Cocos2d Iphone
Vbscript
Sonarqube
Primefaces
Rxjs
Cron
Data Structures
Electron
Php
Sql Server 2005
Ms Word
Nestjs
Charts
Python
Svg
Calendar
Arrays
Com
Time Complexity
Visual Studio 2010
Email
Image
Jwt
Rss
Ionic2
Pdf
Stanford Nlp
Module
Design Patterns
Cocos2d X
Apache Camel
Snowflake Cloud Data Platform
Drools
Dependencies
Dynamics Crm 2011
Jpa
Terminal
Asp.net Web Api
Tags
Ignite
Nuget
Windows Runtime
Serialization
Big O
Hash
Amazon Redshift
User Interface
Telegram
Pagination
Acumatica
Mdx
Discord.py
Hbase


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网