Java 存储并迭代已排序的文件hdfs/spark_Java_Hadoop_Apache Spark_Hdfs - Fatal编程技术网

Java 存储并迭代已排序的文件hdfs/spark

java hadoop apache-spark

Java 存储并迭代已排序的文件hdfs/spark,java,hadoop,apache-spark,hdfs,Java,Hadoop,Apache Spark,Hdfs,任务：我在hdfs上有相当大的输入文件（假设每个文件为50GB）。我需要对它们进行排序，存储在某个地方（驱动程序/hdfs/其他什么？），然后迭代它们，直到满足特定条件问题: 我如何才能最有效地实施它我应该在哪里保存已排序的文件？如果在hdfs中，我如何将它们流式传输到spark，它们会按块加载吗由于您的文件在HDFS中，所以只能从那里读取，并使用下面的代码对其进行排序。我不确定您想要什么类型的排序，但这段代码将根据代码中的值对整个数据进行排序 val data=sc.textFile（

任务：

我在hdfs上有相当大的输入文件（假设每个文件为50GB）。我需要对它们进行排序，存储在某个地方（驱动程序/hdfs/其他什么？），然后迭代它们，直到满足特定条件

问题:

我如何才能最有效地实施它

我应该在哪里保存已排序的文件？如果在hdfs中，我如何将它们流式传输到spark，它们会按块加载吗

由于您的文件在HDFS中，所以只能从那里读取，并使用下面的代码对其进行排序。我不确定您想要什么类型的排序，但这段代码将根据代码中的值对整个数据进行排序

val data=sc.textFile（“hdfs://user/AppMetaDataPayload.csv“”.map（line=>line.split（“，”）

//如果您想在排序后将其存储在内存中并仅从那里开始处理，请使用此选项。它将在内存中存储以供进一步处理时运行得更快

val d1=data.flatMap（u.sorted） d1.cache（）
//如果要将文件保存在HDFS路径中，请使用此选项 data.flatMap（u.sorted）.saveAsTextFile（“hdfs://user/result6.csv）

希望这将对您有所帮助。
我对从hdfs读取文件更感兴趣。如何仅读取hdfs文件的一部分？假设50gb的1mb文件在集群中被拆分。

[hadoop]相关文章推荐

HBase表的大小比hadoop hdfs中的文件大得多 hadoop hbase

为hadoop/PIG输出数据分配ID hadoop apache-pig

Hadoop 跨多个数据中心分布数据节点 hadoop

Hadoop 数字数据-高容量+；高速+；快速检索 hadoop cassandra apache-storm

Hadoop 无法在单个节点上以伪分布式模式启动Hbase主机 hadoop hbase

Hadoop 2.2.0安装程序（伪分布式模式）：错误//警告util.NativeCodeLoader:无法加载本机Hadoop库 hadoop installation

Hadoop 配置单元查询错误：java.io.ioexception错误=13权限被拒绝 hadoop configuration hive

Hadoop Microsoft Word二进制文件如何存储在配置单元中？ hadoop ms-word hive

Hadoop Reducer多次接收相同的值，而不是预期的输入 hadoop mapreduce

Hadoop 连接两个表后配置单元时间戳值更改 hadoop hive

Hadoop 为什么在HDFS上运行的Spark wordcount应用程序中所有的位置级别都是任意的？ hadoop apache-spark

如何在Hadoop中确定Mapper中的最后一条记录？ hadoop mapreduce

在hadoop上启动datanode时出错 hadoop docker

Hadoop 将空值从配置单元导出到Teradata hadoop hive teradata

文本数据未使用hadoop连接器正确写入marklogic数据库 hadoop marklogic

Hadoop MLCP导入java.lang.UnsatisfiedLinkError hadoop marklogic

Hadoop 如何在大量文件上同时运行mapreduce程序？ hadoop mapreduce

Hadoop Cloudera节点\u管理器\u意外\u每小时退出一次 hadoop

无法启动Hadoop群集 hadoop

Hadoop 文件传输到HDFS hadoop apache-kafka

随机文章推荐

Jmeter 如何进行负载测试以找到应用程序可以处理的最大Vuser数？ jmeter

未找到适合jdbc的驱动程序：mysql://localhost:3306/Testing 在JMETER JDBC连接配置中 jmeter

JMeter：是否可以将UI值分配给JMeter变量 jmeter

无法在jmeter中运行Http（s）脚本记录器 jmeter

Jmeter聚合图中的总吞吐量是什么意思 jmeter

Jmeter：如何设置步进线程组？ jmeter

如何在Jmeter中使头管理器成为动态的 jmeter

动态跟踪标记JMeter jmeter

JMeter：用于比较保存在外部参数化文件中的响应的脚本 jmeter

我们可以替换Jmeter中的一个元素吗？ jmeter

如何使用Jmeter为按钮单击创建手动脚本 jmeter

如何理解jmeter结果的响应时间图？ jmeter

JMeter Webdriver采样器中的等待时间问题 jmeter

Jmeter Influxdb-配置文件的[graphite]和[http]中的绑定地址之间的差异 jmeter grafana influxdb

Jmeter报告：-如何通过添加所有子url响应来下载类似于浏览器Jmeter显示的响应并行 jmeter

在JMETER中处理否定的情况，例如，我的预期输出响应是400 jmeter

Jmeter-如何对整个数据库的两个JDBC请求执行数据比较 jmeter

Jmeter 读取邮件读取器采样器响应并在特定区域设置中断言内容 jmeter

如何在Jmeter中模拟浏览器的两个连续选项卡行为？ jmeter

在jmeter中捕获http请求和响应的详细信息 jmeter

[java]相关推荐

Java 向NetBeans GUI builder添加自定义组件！（世界风）
Java Swing User Interface Netbeans

在java中使用泛型而不是创建类型安全集合？
Java Generics Collections

Java 有没有办法不用鼠标来扩展JFileChooser目录
Java Swing

*=在Java中的含义
Java

Java JUnit测试需要调用GWT'；s URL.encode（）服务器端
Java Gwt Junit

无法将InputStream对象传递给Java声音API
Java

Java Jar可执行文件可以'；我找不到主类-奇怪的类
Java Jar

如何放置<；xml文件中由java程序读取的符号？
Java Sql Xml

如何只生成一个包的javadoc
Java Netbeans

Java OpenGL ES 2.0 X轴是否翻转？
Java Opengl Es

Java 在scala中的循环中引入计数器
Java Scala

Java 如何解决因ImageIO插件导致的OutOfMemoryError？
Java

JavaFX2.2在坐标处获取节点（可视化树命中测试）
Java Javafx 2

如何使用JavaJSOUP连接到站点并检索数据？
Java

Java 循环用户输入，直到满足条件
Java

Java 第一个排序属性必须与应用不等式筛选器的属性相同
Java Google App Engine Nosql

如何返回到Java中的特定行？
Java Loops If Statement

Java 有没有一种方法可以在没有弹簧安全性的情况下使用弹簧过滤链？
Java Spring Spring Mvc Spring Security

Java 使用FileOutputStream创建UTF-8 PDF文件
Java Utf 8 Jasper Reports

Java 主题建模槌：如何解释Kullback-Leibler散度
Java

Java 如何为同一@Constraint实现多个JSR-303验证消息？
Java Hibernate

Java 为什么Long不能接受12位数字的值，即使我明确声明了它？
Java

以编程方式在windows中终止java进程
Java Windows Batch File Jar

Java 谷歌教室API-学生'；s"；电邮地址；及；photoUrl“；他们没有回应
Java Oauth 2.0 Google Api

Java 设置3个表格的不同单元格宽度
Java Codenameone

从服务线程更新JavaFXGUI
Java Multithreading Javafx

数据类型不匹配？我把所有的整数都换成了长整数？ import java.util.Random；导入java.util.Scanner；公共类阵列实践{ 公共静态void main（字符串[]arg）{ 长输入； System.out.println（“您将滚动多少次？”）；随机=新随机（）；扫描仪扫描=新扫描仪（System.in）；输入=scan.nextLong（）；长频[]=新长频[7]；对于（long i=1；i
Java Arrays

Java 在Spring引导中覆盖AnnotationMBeanExporter上的默认注册策略
Java Spring Spring Boot

Java 从LocalDateTime和LocalTime创建新的LocalDateTime
Java

（Java）如果哈希集是非同步的，为什么允许同步使用它？
Java Multithreading Synchronization

Tags

Sms Mercurial Google App Maker Xml Sip Rxjs Vhdl Imagemagick Hybris Eclipse Rcp Paypal Jdbc Google Maps Api 3 Vuejs2 Javafx Dataframe Eclipse Jetty Joomla Pagination Parameters Notepad++ Virtual Machine Linq To Sql Protocol Buffers Itext Wcf Floating Point Filter Reporting Services Highcharts Frameworks Tree Amazon Redshift Boost Jqgrid Polymer Debian Atom Editor Ios7 Octave D Playframework 2.0 Google Chrome Extension Clearcase Jquery Plugins Teamcity Microsoft Graph Api Sql Server Compression Path Woocommerce Wpf Drupal 6 Haskell Silverlight Iframe Machine Learning Cassandra Delphi Mqtt Symfony1 C Big O Angular Material Firefox Addon Three.js Autodesk Forge Hbase Mariadb Jira Pip Activemq Air Aurelia Asp.net Mvc 5 Asp.net Socket.io Dask C++ Teradata Methods Azure Sql Database Rest Android Fragments Docker Compose Database Design Openshift Redis Web Openid Wicket Passwords Loops Apache Spark Types Bash Blackberry Xampp Docusignapi Azure Data Factory Visual Studio 2010 Geolocation Facebook Wolfram Mathematica Google Sheets Office365 Keyboard Plot Racket Arrays Ajax Typescript Ssrs 2008 Ftp Syntax Scroll Directory Macros Couchbase Iis 7 Emacs Internet Explorer Github Angular Sql Server 2005 Templates Twig Content Management System Sql String Logic Jsf Antlr4 Datatables Asynchronous Twitter Google Cloud Firestore Mfc Ethereum Ocaml Netty Talend Deep Learning Replace Tcl Spring Cloud Glsl Windows 7 Ruby On Rails 4 Prometheus Iphone Xsd Nest Yii Numpy Documentation List Ibm Midrange Silverstripe Mapping Printing Assembly Matlab Youtube Maven Shell Artificial Intelligence Udp Fiware Pine Script Checkbox Cron Spring Security File Gulp Testing Ravendb Bluetooth Javascript Amazon S3 Gps Terraform Directx Bots Cobol Shiny Testng Eclipse Plugin Python Sphinx Iis Smalltalk Tkinter Nginx Lotus Notes Django Ffmpeg Sass Karate Fullcalendar Mvvm

Copyright © 2024. All Rights Reserved by - Fatal编程技术网