Scala 如何在制作物品地图时减少Spark的洗牌和花费的时间？_Scala_Apache Spark_Apache Spark Mllib - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 如何在制作物品地图时减少Spark的洗牌和花费的时间？_Scala_Apache Spark_Apache Spark Mllib - Fatal编程技术网

Scala 如何在制作物品地图时减少Spark的洗牌和花费的时间？

scala apache-spark

Scala 如何在制作物品地图时减少Spark的洗牌和花费的时间？,scala,apache-spark,apache-spark-mllib,Scala,Apache Spark,Apache Spark Mllib,我正在使用spark读取如下csv文件： x, y, z x, y x x, y, c, f x, z 我想做一张物品与数量的对比图。这是我写的代码： private def genItemMap[Item: ClassTag](data: RDD[Array[Item]], partitioner: HashPartitioner): mutable.Map[Item, Long] = { val immutableFreqItemsMap = data.flatMap(t

我正在使用spark读取如下csv文件：

x, y, z
x, y
x
x, y, c, f
x, z

我想做一张物品与数量的对比图。这是我写的代码：

private def genItemMap[Item: ClassTag](data: RDD[Array[Item]],     partitioner: HashPartitioner): mutable.Map[Item, Long] = {
    val immutableFreqItemsMap = data.flatMap(t => t)
      .map(v => (v, 1L))
      .reduceByKey(partitioner, _ + _)
      .collectAsMap()

    val freqItemsMap = mutable.Map(immutableFreqItemsMap.toSeq: _*)
    freqItemsMap
  }

当我运行它时，它会占用大量的时间和空间。有没有办法缩短时间

我有一个2节点集群，每个集群有2个核心和8个分区。csv文件中的行数为170000

如果你只想做一个独特的项目计数的事情，那么我想你可以采取以下方法

val data: RDD[Array[Item]] = ???

val itemFrequency = data
  .flatMap(arr =>
    arr.map(item => (item, 1))
  )
  .reduceByKey(_ + _)

减少时不要提供任何分区，否则会导致重新洗牌。只需保留它已有的分区即可

还有。。。不要

将分布式数据收集到本地内存对象中，如映射
问题在于收集映射
。所有collect
操作都会在一个执行器上对所有元素进行内存内收集，该执行器会再次传输所有数据。处理真实数据时，应完全删除所有收集操作




[apache spark]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
如何设置运行jetty+；西纳特拉+；jruby？
jetty 
安装WAR on Fuse时发生Jetty错误
jettyosgi 
嵌入式Jetty NotUTF8异常
jetty 
Jetty 码头8套“；“会话超时”；没有web.xml？
jetty 
dropwizard和jetty配置文件
jetty 
获取ClassNotFoundException:org.eclipse.jetty.server.server
jettyosgi


                                        

                                        
                                        


                                                
                                                        [scala]相关推荐
                                                        
Scala 将一个元素与列表中的所有元素进行比较
									Scala
							 
在scala模式匹配案例中，如何确定“一网打尽”的类型？
									Scala
							 
scalatra未显示与管线正确匹配的视图
									Scala
							 
Intellij：如何从Java代码完成中排除Scala库？
									Scala
							 									Intellij Idea
							 
Scala 如何使用Play Framework 2“重写”URL或路由
									Scala
							 									Url Rewriting
							 									Routes
							 									Playframework 2.0
							 
Scala 如何在lift中实现一个搜索表单，在同一页面上显示结果并记住输入？
									Scala
							 
Scala Play框架，如何处理未知url
									Scala
							 									Playframework
							 									Routes
							 
Scala减少继承中的重复代码
									Scala
							 									Inheritance
							 
scala播放框架定义名为“新建”的操作
									Scala
							 									Playframework
							 
Scala 如何使用SnakeYAML转储嵌套列表
									Scala
							 									Yaml
							 
Scala Akka家长未收到来自孩子的消息
									Scala
							 									Akka
							 
Scala，用户输入，直到只给出换行符
									Scala
							 
Scala 什么'；Json.fromJson、as、asOpt和validate之间的区别是什么？
									Scala
							 									Playframework
							 
Scala 需要标识符，但找到整数文本
									Scala
							 									Function
							 
Scala 标记布尔类型上的Slick中的布尔运算
									Scala
							 
Scala 如何重写实例的方法
									Scala
							 
Scala 为什么我的Ignite数据流出现故障？
									Scala
							 									Ignite
							 
Scalaz-ValidationNel-折叠
									Scala
							 									Validation
							 
Scala 隐式转换的结果类型必须比函数中的AnyRef更具体
									Scala
							 
为什么在scala中展平并收集_列表错误？无法解析符号
									Scala
							 									Apache Spark
							 
Scala 将泛型类型构造函数向上转换到其上限
									Scala
							 
尝试并行化Scala中的嵌套循环
									Scala
							 									Apache Spark
							 									Dataframe
							 									Parallel Processing
							 
Scala 如何实现生命周期后期停止？
									Scala
							 									Akka
							 
Scala 使用Mockito的单元测试懒散日志记录
									Scala
							 									Logging
							 
Scala 使用包含可序列化数据的akka actor的protobuf序列化消息
									Scala
							 									Akka
							 
Scala 将两个序列合并为一个序列时，哪一个性能更好：`seq1++seq2`或Seq（seq1，seq2）.扁平化
									Scala
							 
Scala java.lang.ClassNotFoundException:com.datastax.spark.connector.rdd.partitioner.CassandraPartition
									Scala
							 									Apache Spark
							 									Cassandra
							 
是否有一种简单而通用的方法来包装scala对象的代码，并在对象体代码之前和之后执行代码？
									Scala
							 
Scala 如何编写以Array[StructType]，StructType为输入并返回Array[StructType]的Spark UDF
									Scala
							 									Apache Spark
							 
Scala 列表内部列表之间的笛卡尔乘积
									Scala
							 									Functional Programming
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Parse Platform
Deployment
Qt4
Ssl
Graphql
Security
Dynamics Crm
Computer Vision
C++
Sublimetext2
Streaming
Swift2
Neo4j
Autodesk Forge
Yaml
Apache Spark
Phpstorm
Matplotlib
Listview
Swagger
Stripe Payments
Bison
Xquery
String
Redis
Microservices
Time Complexity
Apache2
Libgdx
Report
Django Models
Arangodb
Orm
Windows Installer
Unity3d
Azure Cosmosdb
File Io
Keycloak
Stata
Openshift
Scheme
Tcp
Jaxb
Apache Pig
Ada
Hyperlink
Date
Uitableview
Frameworks
Prestashop
Msbuild
Hazelcast
Jdbc
Xna
Google Colaboratory
Error Handling
Shopify
Gnuplot
Artifactory
Cocoa Touch
Identityserver4
Tomcat
Asp.net Core
Xcode4
Xml
Numpy
Mono
Discord
Rspec
Windows Store Apps
Url Rewriting
Tfs
Oauth 2.0
Cakephp
Oracle Apex
Atom Editor
Google Sheets
Aws Lambda
Excel
Linux
Asp.net Mvc 4
Api
Twilio
Phpmyadmin
Jmeter
Video
Swing
Data Structures
Wolfram Mathematica
Ember.js
Llvm
Anaconda
Apache Camel
Jquery Mobile
Google Plus
Twitter
Discord.js
Angular6
Nosql
Jms
Xpages
Subsonic
Objective C
Redirect
Jestjs
Gremlin
Architecture
Asp.net
Influxdb
Text
Axapta
Apache
Ibm Mobilefirst
Import
Transactions
Xamarin.ios
Xamarin.android
Fluent Nhibernate
Windows Phone 8
Cuda
Pascal
Seo
Camera
Replace
Compilation
Menu
Datatables
Domain Driven Design
Ethereum
Doctrine
Serial Port
Macos
Mule
Grep
Unix
Migration
Xslt
Npm
Sip
Linq To Sql
Doctrine Orm
Drupal 7
Apache Flink
D
Primefaces
Wpf
Omnet++
Rally
Server
Yii2
Windows Phone 7
Notepad++
Sencha Touch
Three.js
Azure Devops
Canvas
Cluster Computing
Statistics
Network Programming
Web Services
Webpack
Cobol
Sed
Python 2.7
Select
Dask
Microsoft Graph Api
Mpi
Process
Hive
Ios
Cloud
Floating Point
Fortran
Apache Kafka
Clearcase
Utf 8
Cmake
Dictionary
Triggers
Google Maps Api 3
Isabelle
Silverlight 4.0
Safari
Jetty
Plone
Zsh
System Verilog
Actionscript 3
Gtk
Firebase
E Commerce
Geolocation
Sql Server 2005
Sharepoint 2010
Single Sign On
Certificate
Cmd
Akka
Compiler Errors
Google Drive Api


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网