Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/user-interface/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
用于拆分xml文件的hadoop作业_Hadoop - Fatal编程技术网

用于拆分xml文件的hadoop作业

用于拆分xml文件的hadoop作业,hadoop,Hadoop,我有1000个文件要处理。每个文件由1000个连接在一起的XML文件组成 我想使用Hadoop分别拆分每个XML文件。使用Hadoop做这件事的好方法是什么 注意:我完全是Hadoop新手。我计划使用Amazon电子病历。退房。很遗憾,这是在Mahout中,而不是在核心发行版中 连接的XML文件是否至少具有相同的格式?如果是这样,请将START\u TAG\u KEY和END\u TAG\u KEY设置为每个文件的根目录。每个文件将在地图中显示为一条文本记录。然后,您可以使用您最喜欢的JavaX

我有1000个文件要处理。每个文件由1000个连接在一起的XML文件组成

我想使用Hadoop分别拆分每个XML文件。使用Hadoop做这件事的好方法是什么

注意:我完全是Hadoop新手。我计划使用Amazon电子病历。

退房。很遗憾,这是在Mahout中,而不是在核心发行版中

连接的XML文件是否至少具有相同的格式?如果是这样,请将
START\u TAG\u KEY
END\u TAG\u KEY
设置为每个文件的根目录。每个文件将在
地图中显示为一条
文本
记录。然后,您可以使用您最喜欢的JavaXML解析器来完成这项工作