hadoop如何创建跨越多个块的inputsplit_Hadoop_Mapreduce_Hdfs - Fatal编程技术网

hadoop如何创建跨越多个块的inputsplit

hadoop mapreduce

hadoop如何创建跨越多个块的inputsplit,hadoop,mapreduce,hdfs,Hadoop,Mapreduce,Hdfs,我决定编写一个简单的自定义FileInputFormat来测试我对inputSplits等的理解，这个练习给我留下了一个严肃的问题上下文假设我有一个非常大的文件，它存储在HDFS中 N个街区假设我的拆分可能跨越两个块（我已经知道为什么这不是一个好主意-我只是想提高我对HDFS和输入拆分的理解-所以请坚持下去假设我有一个方法，它接受一个FileStatus，FileSystem，并返回一个FileInputSplit数组： InputSplit[]getSplits（文件状态文件，文件

我决定编写一个简单的自定义FileInputFormat来测试我对inputSplits等的理解，这个练习给我留下了一个严肃的问题

上下文

假设我有一个非常大的文件，它存储在HDFS中 N个街区
假设我的拆分可能跨越两个块（我已经知道为什么这不是一个好主意-我只是想提高我对HDFS和
输入拆分的理解-所以请坚持下去

假设我有一个方法，它接受一个FileStatus，FileSystem ，并返回一个FileInputSplit 数组：

InputSplit[]getSplits（文件状态文件，文件系统fs）问题/问题我需要4个值来形成一个FileInputSplit split=newfileInputSplit（路径、开始、长度、主机）我有路径、开始、长度，我需要获取主机，因此对于由start 和length 指定的文件的每个部分，我检索位置块final BlockLocation[]blocks=fs.getBlockLocations（文件、开始、长度）从块中我可以得到主机如果我感兴趣的部分跨越多个街区，我不确定我需要做什么：形成FileInputSplit时，我是否使用块[I] 如何将两个块塞入一个inputSplit 有combineInputSplit和compositeInputSplit，但不确定是否用于此目的我猜我猜这无关紧要，我猜我可以使用文件的开始、长度，然后只附加一个包含多个块的所有主机的列表。因为记录读取器将只使用文件系统来读取文件。所有可能发生的情况是，映射器任务可能需要从不同的节点或机架读取块。这里讨论的是您所指的场景

[mapreduce]相关文章推荐 Mapreduce 如何找出某个特定项目在riak集群中的存储位置？ mapreduce Mapreduce Hive中的字计数程序 mapreducehive Mapreduce 你能把三元运算符和STORE in pig一起使用吗 mapreduceapache-pig Mapreduce 如何在执行某些操作后将数据从配置单元插入外部表？ mapreducehive Mapreduce 缩放Oozie Map Reduce作业：拆分成更小的作业是否会减少总体运行时和内存使用？ mapreduce 随机文章推荐完成时检测Firebase初始值 firebase Firebase中实时数据库的语法不起作用？ firebase Firebase Analytics如何定义会话？ firebase 如何在Firebase或任何自定义服务器后端缓存外部API调用的数据？ firebasearchitecture Firebase 无法使用Flatter和cloud\u firestore构建项目 firebasegoogle-cloud-firestoreflutter Firebase规则通配符和子比较 firebase Firebase 特定文档的Firestore安全规则 firebasegoogle-cloud-firestore 试图从React应用程序连接到firebase功能-cors问题？ firebasecorsgoogle-cloud-firestore Firebase云函数多次执行 firebase Firebase 设置文档及其所有子集合的权限 firebasegoogle-cloud-firestore Firebase 如何在Firestore的子集合中写入对象 firebasegoogle-cloud-firestore 反应本机+；Firebase云功能：保持用户登录？ firebasereact-native Firebase 用于创建用户的Firestore规则 firebasegoogle-cloud-firestore Android Jar解析器无法解析firebase unity 2019.2 firebaseunity3d Firebase 如何修复Flatter项目中未安装的cloud firestore包？ firebasefluttergoogle-cloud-firestore 同步访问会话数据（特别是Firebase.currentUser） firebaseflutter Firebase 反应用户在应用程序中花费的时间 firebasereact-native 从firebase React Native进行渲染时出现问题 firebasereact-native Firebase eHow如何在google上的操作上从内联编辑器过渡 firebaseactions-on-google Firebase函数上的Firebase仿真器存储 firebasegoogle-cloud-storage

[hadoop]相关推荐 hadoop中的全局变量 Hadoop Mapreduce 如何开始学习hadoop Hadoop Mapreduce Hadoop 用清管器加载Hbase表。浮点给出字段\u丢弃\u类型\u转换\u失败 Hadoop Hbase Apache Pig Hadoop Vector.class不'；t存在于Mahout core 0.7-cdh4.2.1 jar中，无法运行SimpleMeansClustering示例 Hadoop Hadoop中的RDMS数据归档 Hadoop Hadoop 使用Sqoop将数据从MS-SQL server写入HDFS Hadoop Talend Hadoop中无减缩器的组合器 Hadoop Mapreduce 无法安装psuedo分布式hadoop群集 Hadoop hadoop mapreduce程序中是否强制使用映射器类 Hadoop Mapreduce Hadoop “是怎么回事？”；累积地图pmem“；计算 Hadoop Mapreduce hadoop纱线内存和核心是如何工作的？ Hadoop Frameworks Mapreduce Hadoop 在MapReduce中写入多个O/P文件时出现问题 Hadoop Mapreduce Hadoop UserGroupInformation:没有可供用户使用的组 Hadoop Mapreduce Hadoop dncp_块_验证日志文件增加了HDFS中的大小 Hadoop Hadoop 独立经理人Vs.纱线Vs.Mesos Hadoop Apache Spark Hadoop &引用；“丢失”；EMR集群中的节点 Hadoop Mapreduce Hadoop 如果数据大小超过可用内存，是什么使Spark快速？ Hadoop Apache Spark Apache Spark如何在Hadoop MapReduce上实现100倍的加速？在什么情况下？ Hadoop Apache Spark Hadoop Opentsdb端口安全性 Hadoop Hbase Grafana 如何检查hadoop服务的端口号 Hadoop Hive Hadoop 授权在Sentry中创建外部表 Hadoop Hive Hadoop 计算pig列中出现的字数 Hadoop Apache Pig 使用hadoop streaming jar减少map reduce作业中的拆分数量。 Hadoop Mapreduce Hadoop 纱线如何决定创建多少个容器？（为什么S3a和HDFS之间存在差异？） Hadoop Amazon S3 Hadoop hdfs/localFS中文件操作的文件系统与FileContext？ Hadoop Hadoop 初始化Metron Grok分析器时出错 Hadoop Apache Kafka Apache Storm Hadoop 如何在不同列中使用COLLECT_SET和group by condition Hadoop Hive Hadoop 从hdfs复制文件并重命名（如果存在） Hadoop Hadoop 实时时间序列新表的Hbase模式设计 Hadoop Nosql Hbase Hadoop Can'；t从配置单元加载数据：-chgrp:&x27；LONEWOLF\Sudarshan'；与组的预期模式不匹配 Hadoop Hive Tags Heroku Biztalk Yii2 Electron Cors Compiler Construction Tags Twilio Clearcase Go Here Api Delphi Swing Swiftui Gulp Visual Studio Code Octave Antlr4 Embedded Bash User Interface Dynamic Activemq Sublimetext3 Solr Map Netty Sitecore Facebook Graph Api Ibm Mobilefirst Postgresql Winapi Graphics Vhdl Cypress Next.js Caching Loopbackjs Curl Microservices Jpa Magento Pytorch Jmeter Jira Bison C++ Spring Batch Ssis Dynamics Crm Internet Explorer 8 Ruby On Rails 3 Mod Rewrite Internet Explorer Generics Shell Swift Performance Dialogflow Es Text Telegram Opengl Es Autodesk Forge Webstorm Rss Google Colaboratory Binding Vb6 Objective C Sublimetext2 Reference Exchange Server Ssrs 2008 Compilation Asp.net Mvc 2 Botframework Mongodb EmptyTag Model View Controller Sparql Syntax Memory Leaks Jvm Linker Hyperledger Fabric Jboss Cryptography Ibm Cloud Actionscript Servlets Amazon Cloudformation F# Triggers Sorting Numpy Dictionary Deep Learning Rdf Spotify Browser Drupal 6 Netbeans Push Notification Directx Sass Routing Prolog Speech Recognition Nativescript Workflow Nginx Blockchain Core Data Ipad Ms Office Laravel 4 Unity3d Model Openshift Xamarin.ios Windows Phone 7 Zsh Sencha Touch 2 Testng Error Handling Db2 Sprite Kit Image Processing Kibana Terminal Matlab Plsql Postman Dotnetnuke Ant Latex Puppet Properties Parallel Processing Jenkins Vim Opengl Oauth 2.0 Optimization Entity Framework Fonts Api Authentication Phpstorm Mercurial Windows 7 Sencha Touch Pip Excel Formula Datatables Youtube Api Rx Java Oracle11g Automated Tests Awk Angular Pyspark Sip Gdb Jaxb Cloud Log4j Interface Java Me Erlang Rally Wolfram Mathematica Google Visualization Jupyter Notebook Parameters Mapping Sockets Testing Corda Quickbooks C# 3.0 Vbscript Forms Geolocation Monitoring Xquery Scrapy Material Ui Pointers Azure Devops D3.js Jwt Activerecord Ada Apache Pig Service Visual Studio 2012 Cocoa Visual Studio 2013 Android Ndk Notepad++

Copyright © 2024. All Rights Reserved by - Fatal编程技术网