用于拆分xml文件的hadoop作业
我有1000个文件要处理。每个文件由1000个连接在一起的XML文件组成 我想使用Hadoop分别拆分每个XML文件。使用Hadoop做这件事的好方法是什么 注意:我完全是Hadoop新手。我计划使用Amazon电子病历。退房。很遗憾,这是在Mahout中,而不是在核心发行版中 连接的XML文件是否至少具有相同的格式?如果是这样,请将用于拆分xml文件的hadoop作业,hadoop,Hadoop,我有1000个文件要处理。每个文件由1000个连接在一起的XML文件组成 我想使用Hadoop分别拆分每个XML文件。使用Hadoop做这件事的好方法是什么 注意:我完全是Hadoop新手。我计划使用Amazon电子病历。退房。很遗憾,这是在Mahout中,而不是在核心发行版中 连接的XML文件是否至少具有相同的格式?如果是这样,请将START\u TAG\u KEY和END\u TAG\u KEY设置为每个文件的根目录。每个文件将在地图中显示为一条文本记录。然后,您可以使用您最喜欢的JavaX
START\u TAG\u KEY
和END\u TAG\u KEY
设置为每个文件的根目录。每个文件将在地图中显示为一条文本记录。然后,您可以使用您最喜欢的JavaXML解析器来完成这项工作