Hadoop Spark：使用textFile'；什么是分区选项？_Hadoop_Apache Spark - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop Spark：使用textFile'；什么是分区选项？_Hadoop_Apache Spark - Fatal编程技术网

Hadoop Spark：使用textFile'；什么是分区选项？

hadoop apache-spark

Hadoop Spark：使用textFile'；什么是分区选项？,hadoop,apache-spark,Hadoop,Apache Spark,我正在通过类似于sc.textFile（“/data/*/*/*/*”）的方式将数以万计的文件读入rdd。一个问题是，这些文件中的大多数都很小，而其他文件则很大。这会导致任务不平衡，导致各种众所周知的问题我是否可以通过sc.textFile（“/data/*/*/*”，minPartitions=n_files*5）读取数据来分解最大的分区，其中n_files是输入文件的数量与stackoverflow上的转换一样，minPartitions通过hadoop rabit漏洞传递，并用于org

我正在通过类似于

sc.textFile（“/data/*/*/*/*”）

的方式将数以万计的文件读入rdd。一个问题是，这些文件中的大多数都很小，而其他文件则很大。这会导致任务不平衡，导致各种众所周知的问题

我是否可以通过

sc.textFile（“/data/*/*/*”，minPartitions=n_files*5）

读取数据来分解最大的分区，其中

n_files

是输入文件的数量

与stackoverflow上的转换一样，

minPartitions

通过hadoop rabit漏洞传递，并用于

org.apache.hadoop.mapred.TextInputFormat.getSplits

。我的问题是，这是否实现为首先拆分最大的文件。换句话说，拆分策略是一种试图导致分区大小均匀的策略吗

我更喜欢一个答案，指出在spark/hadoop的最新版本中，分裂策略实际在哪里实施。

没有人给出答案，所以我自己深入研究了这个问题，并将发布我自己问题的答案：

似乎，如果您的输入文件是可拆分的，
textFile
确实会尝试平衡分区大小，如果您使用minPartitions选项
分区策略是在
org.apache.hadoop.mapred.TextInputFormat
的
getSplits
方法中实现的。此分区策略很复杂，首先设置
goalSize
，这是输入的总大小除以
numSplits
（
minPartitions
向下传递以设置
numSplits
的值）。然后，它以这样一种方式拆分文件，即尝试确保每个分区的大小（就其输入的字节大小而言）尽可能接近目标大小/
如果输入文件不可拆分，则不会进行此拆分：请参阅源代码

[apache spark]相关文章推荐

随机文章推荐

SmallTalk学习和开发的最佳操作系统和工具 smalltalk

Smalltalk 如何在Squeak4.1中打开txt文件 smalltalk

导出和共享Smalltalk项目 smalltalk

Smalltalk 我正在使用pharo2.0，我需要实现一个字典，其中必须映射符号，但我不知道如何实现它 smalltalk

Smalltalk 如何在Nautilus中向上下文菜单添加条目？ smalltalk

Smalltalk 在pharo seaside 3.2中捕捉会话到期 smalltalk

Smalltalk 布拉格舞似乎和我在海滨的预期不同 smalltalk

如何在GNU Smalltalk中添加具有两个不同名称的相同方法？ smalltalk

[hadoop]相关推荐

Hadoop 使用HBase存储时间序列数据
Hadoop Hbase

Hadoop 为什么我会得到；获取失败太多”；每隔一天
Hadoop

Hadoop 如何一次运行多个java文件？
Hadoop Cloud

Hadoop 如何限制map reduce作业中发送到reducer的记录数？
Hadoop Mapreduce

Hadoop中的JVM管理器和任务是否驻留在同一台机器上
Hadoop Mapreduce

Hadoop 将数据从网站加载到hdfs
Hadoop

Hadoop 使用SquirreSQL客户端连接到配置单元服务器
Hadoop Hive

Pig Elephant Bird找到了接口org.apache.hadoop.mapreduce.JobContext，但应为类
Hadoop

将多个目录的文件组合为Hadoop输入
Hadoop

Hadoop 清管器按不同的减速机订购？
Hadoop Mapreduce Apache Pig

Hadoop在一台机器上有多个数据节点
Hadoop

Hadoop 流中的最后一个txid无效
Hadoop

Hadoop 在配置单元中注册Hbase表
Hadoop Hive Hbase

Hadoop 2节点集群通信查询
Hadoop Cloud Cluster Computing

Hadoop 在集群中的特定节点上运行我自己的应用程序主机
Hadoop

Hadoop 安巴里+；HDP许可
Hadoop

Hadoop 如何在Spark上运行Mahout
Hadoop Apache Spark

我们必须将数据上传到hadoop集群中的哪个从机
Hadoop

Hadoop apache配置单元无法连接到derby:metastore_db，尽管derby的ij可以
Hadoop Hive

Hadoop 如何在蜂巢、黑斑羚或Spark中转换数据？
Hadoop Apache Spark Hive

Hadoop 如何强制顺序处理文件内容？
Hadoop Mapreduce Hive

Hadoop HBase中的反向扫描错误
Hadoop Hbase

Fi ware hadoop，不运行hadoop“；“你好，世界”-&燃气轮机；字数
Hadoop

Hadoop 当分区程序在Map Reduce中运行时？
Hadoop Mapreduce

Hadoop 在Oozie电子邮件操作中添加html标记
Hadoop

Hadoop serde在蜂箱中有什么用途
Hadoop Hive

Hadoop 一个巨大的文件是如何从HDFS外部产生的？
Hadoop Mapreduce

Hadoop Reg：配置单元中查询优化器的效率
Hadoop Indexing Hive

Hadoop 3支持Mahout吗？
Hadoop

Hadoop 配置单元查询派生列并查找派生列的总数
Hadoop Hive

Tags

Ssas Hybris D Syntax Symfony1 Io Powerbi Autocomplete Ipad Xslt Sequelize.js .net Core Swift3 Twig Graphql Caching Debian Https Path Internationalization Github Google Api Drop Down Menu Linq To Sql Google Sheets Dependency Injection Websocket Jvm Magento2 Indexing Orm Apache Camel Gatsby Ms Office Windows Services Drupal 7 Mariadb Spring Boot Processing Angular6 Stream Google Chrome Codeigniter Qml Jar Filter Notepad++ Plot Coldfusion Sparql Ajax Hazelcast Vb6 Meteor Dojo Module Ios6 Android Ndk Neural Network Karate Navigation Arm Heroku Teamcity Postgresql Ibm Mobilefirst Dask Yocto Migration Xamarin.forms Input Java 8 Identityserver4 Mapreduce Grails Tensorflow Time Complexity Amazon Redshift Swift Documentation Instagram Common Lisp C++ Bazel Boost Google Plus String Monitoring Reference Gdb Amp Html Filesystems Firebase Model View Controller Listview Jdbc Windows Quickbooks Awk Sas Outlook Routing Variables Oracle10g Multithreading Class Camera Smtp Openlayers Google App Maker Encryption Gmail Firefox Resharper Cors Google Drive Api Visual Studio 2013 Ios8 Visual Studio 2008 Pentaho Collections If Statement Statistics Makefile Cucumber Cookies Latex Blockchain Visual Studio 2015 Exchange Server Mediawiki Jquery Django Mpi Sql Server 2005 Ethereum C# 4.0 Google Compute Engine Jetty Jira Tfs Atom Editor Python Elm Graphics Gcc Data Binding Actions On Google Drools Javascript Python 2.7 Jquery Plugins Solr Compilation Yii Erlang Random Fiware Cron Editor Teradata Text Azure Sql Database Sql Safari Phpunit Umbraco Internet Explorer Azure Active Directory Stanford Nlp Office Js Robotframework Apache Storm Devexpress Xaml Optimization Firefox Addon Domain Driven Design Generics Ios7 Gitlab Apache2 Imagemagick Google Colaboratory Highcharts Aurelia Isabelle Virtualbox Asp.net Log4net Unity3d Go Postman Pine Script Log4j Protractor Gridview Macos Drupal 6 Weblogic Eclipse Rcp

Copyright © 2024. All Rights Reserved by - Fatal编程技术网