用于拆分xml文件的hadoop作业_Hadoop - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/user-interface/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
用于拆分xml文件的hadoop作业_Hadoop - Fatal编程技术网

用于拆分xml文件的hadoop作业

hadoop

用于拆分xml文件的hadoop作业,hadoop,Hadoop,我有1000个文件要处理。每个文件由1000个连接在一起的XML文件组成我想使用Hadoop分别拆分每个XML文件。使用Hadoop做这件事的好方法是什么注意：我完全是Hadoop新手。我计划使用Amazon电子病历。退房。很遗憾，这是在Mahout中，而不是在核心发行版中连接的XML文件是否至少具有相同的格式？如果是这样，请将START\u TAG\u KEY和END\u TAG\u KEY设置为每个文件的根目录。每个文件将在地图中显示为一条文本记录。然后，您可以使用您最喜欢的JavaX

我有1000个文件要处理。每个文件由1000个连接在一起的XML文件组成

我想使用Hadoop分别拆分每个XML文件。使用Hadoop做这件事的好方法是什么

注意：我完全是Hadoop新手。我计划使用Amazon电子病历。

退房。很遗憾，这是在Mahout中，而不是在核心发行版中

连接的XML文件是否至少具有相同的格式？如果是这样，请将

START\u TAG\u KEY

和

END\u TAG\u KEY

设置为每个文件的根目录。每个文件将在

地图中显示为一条文本记录。然后，您可以使用您最喜欢的JavaXML解析器来完成这项工作




[user interface]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
在actionscript的行之间暂停
actionscript 
在ActionScript 3中，我应该如何构造复杂对象的数据？
actionscriptdata-structuresoop 
Actionscript 外部接口：铁路超高'；无法从回调访问某些AS对象（movieclips）
actionscript 
Actionscript 如何从XML复制MovieClip，一个一个，大小不同？
actionscript 
Actionscript 播放电影剪辑，让它等到主电影结束后再重新启动
actionscript 
Actionscript 如何停止一个旋转的电影唇在不同的角度与其他电影唇以下，动作脚本3
actionscript 
Actionscript 鼠标悬停动作脚本
actionscript 
停止在movieclip actionscript 2上淡入淡出
actionscript


                                        

                                        
                                        


                                                
                                                        [hadoop]相关推荐
                                                        
Hadoop输入文件顺序
									Hadoop
							 
在没有输出文件的情况下运行Hadoop作业
									Hadoop
							 
Hadoop HDFS-无法提供+；x文件的访问权限
									Hadoop
							 
Hadoop 在CDH4.0.1虚拟机上使用MRV1运行wordcount示例
									Hadoop
							 
Hadoop 如何决定并行映射器/还原器的数量以及堆内存？
									Hadoop
							 									Mapreduce
							 
Hadoop 如何解决；分析过程中出错。无法实例化"；猪？
									Hadoop
							 									Apache Pig
							 
Hadoop 无法运行打开的jar文件
									Hadoop
							 									Mapreduce
							 
hadoop fair scheduler的最大池数是多少？
									Hadoop
							 
Hadoop 无法增加配置单元映射程序任务？
									Hadoop
							 									Hive
							 
Hadoop Sqoop使用配置单元将表导入配置单元'；s Thrift服务器是否正在运行
									Hadoop
							 									Hive
							 
绕过org.apache.hadoop.mapred.InvalidInputException:输入模式s3n://[…]匹配0个文件
									Hadoop
							 									Amazon S3
							 									Apache Spark
							 
我应该使用哪个版本的HDP来处理Mahout 0.9和Hadoop 1.x
									Hadoop
							 
Hadoop 元数据错误：org.apache.thrift.transport.ttTransportException
									Hadoop
							 									Hive
							 
为什么模式显示“组”而我没有执行“组”（hadoop pig）
									Hadoop
							 									Apache Pig
							 
Hadoop 错误2998:未处理的内部错误。运行代码
									Hadoop
							 									Hbase
							 									Apache Pig
							 
Hadoop 如何通过Oozie rest api在有效负载中传递凭据以执行配置单元操作
									Hadoop
							 									Hive
							 
传递Hadoop配置
									Hadoop
							 
hadoop用户文件权限
									Hadoop
							 									Permissions
							 
Hadoop hdfs dfs-使用覆盖进行放置？
									Hadoop
							 
Hadoop 从Cloudera中删除死主机
									Hadoop
							 
Hadoop 从远程windows系统使用jdbc连接到kerberised配置单元
									Hadoop
							 									Jdbc
							 									Hive
							 
Hadoop 如何将表注册为数据帧中的spark表
									Hadoop
							 									Apache Spark
							 
Hadoop 如何使用接受多列作为参数的java为配置单元编写UDAF？
									Hadoop
							 									Hive
							 
Hadoop 3.0.3--权限被拒绝（公钥、gssapi密钥、带麦克风的gssapi、密码）
									Hadoop
							 									Ssh
							 
Hadoop 纱线资源管理器：start-Thread.sh的NoClassDefFoundError
									Hadoop
							 
在Hadoop-JPS中设置集群不会显示NodeManager和ResourceManager
									Hadoop
							 
Hadoop HDPCD模拟器
									Hadoop
							 									Hive
							 									Apache Pig
							 
Hadoop 如何计算hive中时间戳（'yyyy-mm-dd hh:mm:ss'）的平均值（平均值）？
									Hadoop
							 									Hive
							 
Hadoop 配置单元：如何在不更新的情况下处理scd类型2
									Hadoop
							 									Hive
							 
Hadoop 连接到Hdinsight
									Hadoop
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Floating Point
Entity Framework 4
Url Rewriting
Printing
Osgi
Kernel
Javafx
Windows 8
Ant
Blazor
Nestjs
Calendar
Salesforce
Entity Framework Core
Windows Mobile
Usb
Isabelle
Ibm Cloud
Linq To Sql
Makefile
Transactions
Awk
Automation
Xna
Playframework 2.0
Coq
Ckeditor
Netbeans
Logging
Stata
Drupal
Sharepoint
Machine Learning
Gstreamer
Parameters
Delphi
Julia
Mysql
Java Me
Wcf
Azure Cosmosdb
Autocomplete
Ssrs 2008
Collections
Sql Server
Fluent Nhibernate
Wpf
Dataframe
Zend Framework
Seo
Pyspark
Razor
Cluster Computing
Ios4
Computer Vision
Sms
Arduino
Timer
Video Streaming
Iphone
Azure Active Directory
Error Handling
Pandas
Adobe
Windows Phone 8.1
Phpstorm
Ms Access
Mercurial
Cloud Foundry
Unicode
Scikit Learn
Drupal 7
Gis
User Interface
Twig
Module
Resharper
Python Sphinx
Plsql
Laravel 5
Vb6
Silverlight
Sql Server 2008
Ecmascript 6
C++ Cli
Replace
Nosql
Google Calendar Api
Instagram
Docusignapi
Teamcity
Geolocation
Operating System
Time Complexity
Safari
Azure Service Fabric
Zend Framework2
Passwords
Lua
Data Structures
Notifications
Button
Visual Studio 2015
Vuejs2
Matplotlib
Dotnetnuke
Aframe
Flash
Assembly
Vue.js
Web Scraping
Corda
Azure Devops
Excel Formula
List
View
Canvas
Dependency Injection
Vb.net
Drop Down Menu
Ipython
Elm
Azure Data Factory
Sip
Navigation
Jquery
Optimization
Concurrency
Opencl
Google Drive Api
Knockout.js
Kubernetes
Scrapy
Cucumber
Webpack
Reactjs
Testing
Mobile
Tfs
Applescript
Function
Json
Server
Phpunit
Playframework
Eclipse
Https
Windows Installer
Heroku
Nhibernate
Phantomjs
Arangodb
Download
Ide
Latex
Version Control
Magento
Yaml
C# 3.0
Intellij Idea
Woocommerce
Dialogflow Es
Coffeescript
Exchange Server
Sparql
Spring Mvc
Perforce
Orchardcms
Ionic Framework
Xsd
Colors
Octave
Uiview
Android Studio
Ember.js
Marklogic
Checkbox
Codeigniter
Angular Material
Cocos2d Iphone
Debian
Sass
Lambda
Phpmyadmin
Compiler Errors
Oauth 2.0
Monitoring
Ios
Google Chrome
Eclipse Rcp
Microsoft Graph Api
Hash
Stm32
Azure Sql Database
Input
Search
Performance
Cmd
Asynchronous
Couchbase
Visual Studio 2008


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网