Java 对于小数据集，收集比第一次收集花费更多的时间_Java_Apache Spark_Hdfs - Fatal编程技术网

Java 对于小数据集，收集比第一次收集花费更多的时间

java apache-spark

Java 对于小数据集，收集比第一次收集花费更多的时间,java,apache-spark,hdfs,Java,Apache Spark,Hdfs,我将数据保存为HDFS上的单个分区（以字节为单位），当我想使用下面的代码获取数据内容时，收集比数据的单个分区中的第一次花费更多的时间 javarddmytext=sc.textFile（“…”）；列表行=mytext.collect（）；我希望collect和first的时间相同。然而，对于HDFS的单个分区中的数据，collect比first慢这背后的原因可能是什么？rdd.first（）不必扫描整个分区。它只得到第一个项目并将其返回。 rdd.collect（）必须扫描整个分区，收

我将数据保存为HDFS上的单个分区（以字节为单位），当我想使用下面的代码获取数据内容时，

收集

比数据的单个分区中的

第一次

花费更多的时间

javarddmytext=sc.textFile（“…”）；
列表行=mytext.collect（）；

我希望

collect

和

first

的时间相同。然而，对于HDFS的单个分区中的数据，

collect

比

first

慢

这背后的原因可能是什么？

rdd.first（）

不必扫描整个分区。它只得到第一个项目并将其返回。

rdd.collect（）

必须扫描整个分区，收集所有分区并发送全部返回（序列化+反序列化成本等）

这可能是因为first（）完全在驱动程序上执行节点处于同一进程中，而

收集（）需要与工作进程连接
节点
通常在第一次运行操作时，大多数JVM代码都不是
优化了，类加载器还需要在
飞必须通过RPC与其他进程连接会降低第一个进程的速度
以对方付费方式执行
也就是说，如果您运行几次（在同一个驱动程序中）并且
速度仍然慢得多，您应该考虑其他因素，如网络
拥塞、工作人员的cpu/内存负载等。
为什么检索第一条记录与检索所有数据需要相同的时间？因为数据非常小或很小。collect
几乎是第一条记录的3倍




[apache spark]相关文章推荐



                                                        
Apache spark 为什么'；--conf参数是否在纱线簇模式下工作（但在纱线客户端和本地模式下工作）？
apache-spark 
Apache spark 如何在Directstream方法中使用核心
apache-spark 
Apache spark 有没有一种方法可以可视化Spark mllib随机森林模型？
apache-spark 
Apache spark 读取驱动程序随spark提交发送的文件
apache-spark 
Apache spark 如何确保每个Spark数据帧分区不超过给定的数据大小（MB）
apache-spark 
Apache spark Spark独立应用程序在最后一点挂起
apache-sparkpyspark 
Apache spark ORC文件上的Spark SQL不'；t返回正确的架构（列名）
apache-spark 
Apache spark Spark Thrift服务器强制元数据刷新
apache-spark 
Apache spark Spark Groupby：允许两个以上的组中有一条记录
apache-sparkpyspark 
Apache spark Scala、IntelliJ和Gradle依赖项
apache-sparkgradleintellij-idea 
Apache spark 在PySpark中将结构数组展开为列
apache-sparkgoogle-analyticspyspark 
Apache spark Spark子查询扫描整个分区
apache-spark 
Apache spark 读/写结构柱类型的拼花地板
apache-sparkpyspark 
Apache spark Spark:执行器心跳超时
apache-sparkpyspark 
Apache spark 如何使用spark rdd获得以下列表？
apache-spark 
Apache spark 与一个作业相比，使用多个作业（操作）激发流媒体应用程序是否有性能优势？
apache-spark 
Apache spark Apache Spark中经过宽转换后的分区数
apache-sparkpyspark 
Apache spark 使用kerberized Dataproc群集时，8088上的资源管理器UI不工作
apache-sparkhadoop 
Apache spark 选择数据帧（PySpark）上的下一条或上一条记录
apache-sparkpyspark 
Apache spark 星火工作分解
apache-spark 
                                       





随机文章推荐



                                                        
Variables 如何在变量中引用变量？（powershell）
variablespowershell 
Variables 如何在页面重新加载时使用Greasemonkey脚本记住变量
variables 
Variables appcelerator post请求。在一个请求中多次发送一个变量。
variablespost 
Variables 用于识别挡块中问题的工具
variables 
Variables 在Arduino中使用字符串和整数寻址变量
variablesarduino 
Variables 跳过变量看起来是不可能的
variablesbatch-file 
Variables 触发器中的另一个坏绑定变量
variablesplsql 
Variables 匹配两个变量
variablesms-access 
Variables 将awk计算结果传递给变量
variablesawk 
Variables awk设置变量以形成范围
variablesawk 
Variables GNU使从模板创建文件
variablesmakefile 
Variables 傀儡Cron设置$VARABLE以及分钟*/
variablescronpuppet 
Variables 未从批处理脚本中的输入首次分配变量
variablesbatch-fileinput 
Variables 使用np.zeros和tf.zeros初始化Tensorflow变量之间的差异
variablestensorflow 
Variables 如何为销售的总变化设置最大库存水平，而不考虑个别变化库存水平
variableswoocommerce 
Variables 有没有办法获取范围中变量的名称和值？
variablesgo 
Variables HiveQL中的变量
variableshiveazure-data-factory 
Variables 访问密码/密码变量？
variables 
Variables 为什么我的Scratch Cloud变量没有更新？
variables 
Variables UEFI Shell如何获取指定文件的大小并将其放入startup.nsh'；什么是变量？
variables


                                        

                                        
                                        


                                                
                                                        [java]相关推荐
                                                        
Java JPA在使用日期标准时会截断纳秒&；SQL日期时间2
									Java
							 									Sql Server
							 									Hibernate
							 									Jpa
							 
Java 在HtmlUnitDriver中提供浏览器版本有什么用
									Java
							 									Linux
							 									Selenium
							 									Selenium Webdriver
							 
在Java中从SortedSet高效地查找耳机
									Java
							 
Java 在另一个JSP中访问一个JSP中的Bean集
									Java
							 									Jsp
							 
将Java应用程序从Jboss eap-6.3迁移到Wildfly 9
									Java
							 									Jboss
							 
Java Android中的停止/启动异步任务线程和停止/启动UIThread
									Java
							 									Android
							 									Multithreading
							 
Java 测试仍然从真实的SharedReferences读取数据
									Java
							 									Android
							 
使用Java'的sobel滤波器对图像进行边缘检测的问题；s卷积
									Java
							 									Image
							 									Image Processing
							 
Java3D图表JavaGnuplotHybrid
									Java
							 									Charts
							 									Gnuplot
							 
Java 删除另一实体中实体列表中的实体
									Java
							 									Spring
							 									Jpa
							 									Orm
							 
如何使用“；从&x201D开始；使用java
									Java
							 									Spring
							 									Mongodb
							 									Spring Boot
							 
Java 如何在playframework 2.4+中正确使用JPA EntityManager；
									Java
							 									Scala
							 									Jpa
							 									Web
							 									Playframework
							 
Java 如何使用Guice检索给定接口的多绑定实现集
									Java
							 
Java 循环链表与迭代器
									Java
							 
Java 如何使用Scala和BootStrap单击Selenium中的第一个Select2元素
									Java
							 									Jquery
							 									Scala
							 									Selenium
							 
Java 改变Lucene分析仪
									Java
							 									Lucene
							 
Java 改进和维基百科API
									Java
							 									Android
							 									Api
							 
Java 检测来自哪个USB端口的输入
									Java
							 									Usb
							 
Java 具有Gridbaglayout的Swing显示表结构
									Java
							 									Swing
							 
Java 从Eclipse ADT迁移到Android Studio 2.1-错误：包Android.support.v4.view不存在
									Java
							 									Android
							 
Java 从SQL查询中获取响应中每个重复记录的计数
									Java
							 									Sql
							 									Spring
							 
Java 无需身份验证即可从智能卡获取X509证书
									Java
							 
Java 日食不'；t创建空白/空活动
									Java
							 									Android
							 									Eclipse
							 
Java 从JTextField更新SQLite数据库行不工作，对数据库没有任何更改。所有连接良好，以前使用的连接已关闭
									Java
							 									Mysql
							 									Sql
							 									Sqlite
							 									Jdbc
							 
Java 我们可以让JsonTypeName成为可选的吗？
									Java
							 
Java Linux：在不丢失单个返回码的情况下运行多个命令？
									Java
							 									Linux
							 									Bash
							 									Command Line
							 
Java 使用用户启动停止demon不是使用给定用户启动
									Java
							 									Linux
							 									Shell
							 									Unix
							 
Java 向表达式树添加括号
									Java
							 
如何用reduceByKey替换groupByKey以在Spark java中作为一个Iterable值返回？
									Java
							 									Apache Spark
							 
Java 用Liquibase使冬眠愉快'；s"；uuid“；
									Java
							 									Mysql
							 									Hibernate
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Hybris
Yii2
Subsonic
Reactjs
Windows Runtime
Coding Style
Marklogic
Google Visualization
Parallel Processing
Sublimetext3
Iis 7
Hibernate
Arduino
Actions On Google
Symfony
Generics
Openerp
Mapreduce
Couchbase
Version Control
Nestjs
Compilation
Web Services
Audio
.net
C# 3.0
Swift3
Merge
Here Api
Embedded
Graphviz
Redirect
Cordova
Ruby
Joomla
Email
Aurelia
Jupyter Notebook
Internet Explorer
Tinymce
Spring
Gstreamer
Svn
Web Crawler
Rest
For Loop
Gtk
Junit
Powershell
Ajax
C
Socket.io
Python Sphinx
List
Oauth 2.0
Kotlin
Memory Leaks
Plone
C#
Xquery
Office365
Testing
F#
Nginx
Visual Studio 2010
Jasper Reports
Facebook
Dask
Activemq
Paypal
Zend Framework2
Opengl
Terminal
Pytorch
Stripe Payments
Ftp
C++
Cron
Antlr4
Azure Service Fabric
Liferay
Grid
Shiny
Continuous Integration
Keyboard
Error Handling
Discord.js
Activerecord
Tensorflow
Heroku
Blockchain
Install4j
Active Directory
Oop
Gridview
Mule
Validation
Csv
Cocos2d Iphone
Breeze
Qt
Oauth
Quickbooks
Apache Zookeeper
Backbone.js
Yocto
Printing
Influxdb
Batch File
Modelica
Twitter
Xamarin
Gmail
Linq To Sql
Google App Engine
Coffeescript
Dialogflow Es
Spring Integration
EmptyTag
Language Agnostic
Django Models
Google Analytics
Markdown
Cors
Xamarin.android
Dojo
Rx Java
Gis
File
Swing
Jenkins
Laravel
Enums
Wxpython
Appium
User Interface
Ms Office
Module
Curl
Editor
Input
Telegram
Ibm Cloud
Openshift
Ckeditor
React Native
Sugarcrm
Virtualbox
Xcode
Encoding
Vba
Class
Iphone
Pandas
Migration
Ssis
Sed
Jdbc
Vim
Spotify
Dom
Unicode
Uiview
Snmp
Azure Sql Database
Nativescript
Sql Server 2008 R2
Camera
Facebook Graph Api
Clojure
Deployment
Opengl Es
Akka
Apache Kafka
Google Cloud Storage
Google Plus
Nosql
Meteor
Airflow
Path
Javafx 2
Db2
Polymer
Mono
Jekyll
Sencha Touch 2
Android Fragments
Bluetooth
.net 4.0
Visual Studio 2017
Titanium
Localization
Gitlab
Networking
R
Libgdx
Wso2
Json
Syntax
Tkinter
Parameters


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网