Apache spark 为什么Spark'；一段时间后，从文件中读取的速度有多快？_Apache Spark_Rdd - Fatal编程技术网

Apache spark 为什么Spark'；一段时间后，从文件中读取的速度有多快？

apache-spark

Apache spark 为什么Spark'；一段时间后，从文件中读取的速度有多快？,apache-spark,rdd,Apache Spark,Rdd,Spark在洗牌后在磁盘上实现其结果。在运行一个实验时，我看到Spark读取任务在1ms内实现了65MB的数据（有些任务甚至显示在0ms内读取数据：）。我的问题是Spark如何能如此快速地从硬盘读取数据？它实际上是从文件还是从内存中读取这些数据由@zero323在states上向磁盘写入的答案是随机文件。这并不意味着洗牌后的数据不会保存在内存中。但我找不到任何官方的Spark来源，说Spark会将洗牌输出保存在内存中，这是下一个任务读取时首选的是从磁盘或内存（如果是从内存中，如果有人能指出官

Spark在洗牌后在磁盘上实现其结果。在运行一个实验时，我看到Spark读取任务在1ms内实现了65MB的数据（有些任务甚至显示在0ms内读取数据：）。我的问题是Spark如何能如此快速地从硬盘读取数据？它实际上是从文件还是从内存中读取这些数据

由@zero323在states

上向磁盘写入的答案是随机文件。这并不意味着洗牌后的数据不会保存在内存中。

但我找不到任何官方的Spark来源，说Spark会将洗牌输出保存在内存中，这是下一个任务读取时首选的

是从磁盘或内存（如果是从内存中，如果有人能指出官方来源，我将不胜感激）读取shuffle输出的Spark任务。

Spark shuffle输出被写入磁盘。您可以在性能影响主题中找到此信息

Shuffle还会在磁盘上生成大量中间文件。从Spark 1.3开始，这些文件将一直保留到相应的RDD不再使用，并被垃圾收集

这样做的目的是，如果血统被重新计算。垃圾收集只能在如果应用程序保留对这些RDD的引用，则为长时间或者如果GC不经常启动

这意味着长时间运行的Spark作业可能会消耗大量的内存磁盘空间

我不反对Spark将其后台输出写入文件。我的问题是，下一阶段是从这些文件中读取，还是直接从内存中的数据中读取。

[notepad++]相关文章推荐

Notepad++ 记事本中的QuickText++；不保存代码片段！ notepad++

Notepad++ 记事本++；要自动监视日志文件，请编辑最后一行，然后将最后一行保存到新文件 notepad++

Notepad++ 选择记事本中的行范围++ notepad++

Notepad++ 自动关闭记事本中的html标记和jsp、php、asp标记++；在Scriptlet编写的行的末尾加一个分号 notepad++php html

Notepad++ 记事本++；文档切换器样式？ notepad++

Notepad++ 如何在记事本+；中执行这样的命令+； notepad++

Notepad++ 如何在记事本++；在这种情况下？ notepad++

Notepad++ *.map的记事本++语法高亮显示 notepad++

Notepad++ 如何在记事本++； notepad++

Notepad++ 记事本++搜索并替换为正则表达式 notepad++

Notepad++ 记事本++；更换（+；1个） notepad++

Notepad++ 给记事本中的每个单词加上单引号++；？ notepad++

Notepad++ 记事本++查找和替换： notepad++

Notepad++ 删除记事本中文件数中特定部分的空行++； notepad++

Notepad++ 如何在记事本++；32位？ notepad++

Notepad++ 记事本++；如何在小数点后加零？仅限两位数 notepad++

Notepad++ 我想删除记事本++； notepad++

Notepad++ 记事本++删除特定文本 notepad++

Notepad++ NppExec SqlPlus如何检查错误？ notepad++

Notepad++ 记事本++；启动时使用的工作区 notepad++

随机文章推荐

Pdf 下载文件名是如何选择的，是否有办法更改？ pdf

Pdf TDD和报告的最佳实践 pdf

如何使用可剪切和粘贴的代码片段创建PDF文档？ pdf documentation

Pdf GhostScript将图像/表单与文本文件合并 pdf

维姆：可以在拆分窗口中查看pdf文件吗？ pdf vim

使用Amazon S3文件获取折纸pdf pdf amazon-s3

Pdf Python模块Pisa：如何更改所有页面的背景色？ pdf python-2.7

使用itext以绝对值在多个页面上生成PdfPTable pdf itext

如何使PDF响应 pdf

o PDF，最好在你的Reveal.js结构中使用css/print/PDF.css中的样式表。然后根据文档进行操作：只需在幻灯片组的URI末尾添加*？打印pdf；打印。@ManfredMoser:好的，我已经从当前的Git源安装了最新的Reveal.js pdf printing

如何使用inkscape命令行从pdf中提取svg？ pdf svg

SSRS PDF导出标题不正确 pdf reporting-services

幻影JS PDF分页符 pdf phantomjs

使用LibreOffice将.docx导出为PDF时出现错误的Unicode映射 pdf

XObject窗体边界框的y、x坐标错误-PDFBOX pdf

PDF字体描述符标志 pdf winapi mfc

不同PDF的不同cmap，如何制作一个全局cmap，以便使用相同的fontmap处理多个PDF到/toUnicodemap pdf unicode fonts

我的PDF文件中存在拼写错误，即使代码中没有拼写错误 pdf

PDF-超级链接中使用的名称列表 pdf

Forge查看器，PDF镜像 pdf autodesk-forge

[apache spark]相关推荐

Apache spark GraphX的Java示例
Apache Spark

Apache spark Spark如何仅在一个工作节点上执行一个映射操作？
Apache Spark

Apache spark 这是Spark 1.3中的回归错误吗？
Apache Spark

Apache spark Spark流上下文中的流并行性
Apache Spark Apache Kafka

Apache spark 与aws java sdk链接时读取json文件时发生Spark崩溃
Apache Spark

Apache spark 为什么两个spark流媒体作业使用相同的组id从同一个Kafka主题中提取消息，而不是平衡负载，而是获取相同的消息？
Apache Spark Apache Kafka

Apache spark sbt、常春藤、离线工作和怪异
Apache Spark Sbt

Apache spark 使用HiveContext的多个Spark应用程序
Apache Spark Hive Pyspark

Apache spark 为什么在Spark流媒体中读取广播变量在运行数天后出现异常？
Apache Spark Hbase

Apache spark 火花：把一对钻石分成几对
Apache Spark

Apache spark couchbase火花连接器DCP从最后位置恢复
Apache Spark Couchbase

Apache spark 将Spark Streaming中的数据存储到Cassandra时出现问题
Apache Spark Serialization Cassandra

Apache spark 运行时Spark配置更改
Apache Spark

Apache spark 将拼花地板列读取为RDD行
Apache Spark Dataframe

Apache spark 根据列当前值更新pyspark中的列
Apache Spark Pyspark

Apache spark Spark Standalone:TransportRequestHandler:调用RpcHandler时出错-在不同机器/虚拟机上启动工作程序时
Apache Spark

Apache spark 什么是；循环数据流“；在Apache Spark中是什么意思？
Apache Spark

Apache spark Spark支持哪些版本的avro和拼花地板格式？
Apache Spark

Apache spark 如何理解Spark MLlib的libsvm格式类型？
Apache Spark

Apache spark Mesos上的Spark（DC/OS）在执行任何操作之前会丢失任务
Apache Spark

Apache spark PySpark-ALS建议太慢
Apache Spark Time Pyspark

Apache spark 在用压缩文件替换HDFS中的小文件时，如何避免中断活动配置单元/Presto查询？
Apache Spark Hadoop Hive

Apache spark 在spark structured streaming上显示“必须使用writeStream.start（）执行具有流源的查询”时出错
Apache Spark

Apache spark 组合（不是sql连接）2个spark数据帧
Apache Spark

Apache spark Spark结构化流式Kafka集成-流式查询
Apache Spark Apache Kafka

Apache spark 高效地创建大型交互矩阵（数十亿到万亿个单元）。AWS胶水Pypark ETL
Apache Spark Pyspark

Apache spark 使用动态模式读取传入事件的单火花流作业
Apache Spark

Apache spark 在pyspark&；在中间添加一个文本
Apache Spark Pyspark

Apache spark Pyspark数据帧到3d Numpy矩阵
Apache Spark Pyspark

Apache spark 基于PySpark中键、值对值的相似性减少它们
Apache Spark Pyspark

Tags

Windows 10 For Loop Charts Random Asynchronous .net Core Maven 2 Dataframe Hazelcast Sublimetext3 Web Applications Macros Sugarcrm Cobol Binary Logic Zend Framework2 Clojure Influxdb Compiler Construction Robotframework Google Plus Sas Uml Linq Opencart Windows Numpy Firefox Addon Postman Npm Drupal Intellij Idea Aws Lambda Google Bigquery Ide Cloud Foundry Transactions Youtube Api Machine Learning Sap Tsql Next.js Function Matlab Dll Sql Server 2012 Ldap Playframework Magento Iis Forms Common Lisp Vba Postgresql Report Floating Point Responsive Design Sails.js Image Processing Quickbooks Asp.net Core Sqlalchemy Object Drop Down Menu Primefaces Bazel Com Sip Linker Zend Framework Cypress Cuda Windows Mobile Exception Handling Outlook Wix Twitter Bootstrap Command Line Stanford Nlp Xampp Permissions Vue.js Rdf Oauth 2.0 Less Coldfusion Windows Store Apps Air Python 2.7 Express Telegram Excel Cron Bison Discord.js Bots Scroll Javafx 2 Hibernate Entity Framework 4 Dns Python Protocol Buffers Sass Keras Sdk Web Silverlight 4.0 Audio Automated Tests .htaccess Iis 7 Xsd Swing Objective C Sharepoint String Google Apps Script Push Notification Time Dependencies Gmail Sharepoint 2007 Graphviz Ms Word Plsql Rest Ios Visual Studio 2017 Ethereum Spring Batch Bootstrap 4 Curl Google Colaboratory Extjs4 Twilio Programming Languages Azure Service Fabric Kendo Ui Kdb Asterisk Netbeans Go Sitecore Url Http Python Sphinx Mapreduce Video Chart.js Ansible Statistics Cluster Computing Here Api Arangodb Webstorm Ssl Terminal Combobox Ios5 Sbt Facebook Graph Api Osgi Django Models C# 4.0 Material Ui Model View Controller Apache Storm Autohotkey Documentation Netlogo Identityserver4 Gps Download Codeigniter Jqgrid Google Analytics Model Stored Procedures Soap Asp Classic Pdf Jersey Xna Smalltalk Algorithm Ip Coq Editor Encryption Tableau Api Computer Science Polymer Character Encoding Linux Kernel Printing Error Handling Xamarin.ios Optimization Bash

Copyright © 2024. All Rights Reserved by - Fatal编程技术网