将大型XML文件拆分为Hadoop的可管理部分_Xml_Hadoop

将大型XML文件拆分为Hadoop的可管理部分

xml hadoop

将大型XML文件拆分为Hadoop的可管理部分,xml,hadoop,Xml,Hadoop,在Hadoop中，是否有一个输入类可以根据树结构处理[多个]大型XML文件？我有一组具有相同模式的XML文件，但我需要将它们拆分为数据部分，而不是将这些部分拆分例如，XML文件将是： <root> <parent> data </parent> <parent> more data</parent> <parent> even more data</parent> </root> 资

在Hadoop中，是否有一个输入类可以根据树结构处理[多个]大型XML文件？我有一组具有相同模式的XML文件，但我需要将它们拆分为数据部分，而不是将这些部分拆分

例如，XML文件将是：

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>


资料
更多数据
更多数据

我将每个部分定义为： /根/父

我想问的是：Hadoop是否已经包含了一个记录输入读取器来执行此操作？

我认为可能会对您有所帮助

该库提供了一个可能有用的

同样令人感兴趣的是Cloud9文档中的这一页，它介绍了如何处理问题。

性能有多重要？记录输入阅读器可以，但速度很慢。。。那可以接受吗？呃。。这是学校的作业，所以表演没什么大不了的。。。但是如果不把它列为回答而不是评论，那会更好吗？我不确定它是否回答了你的问题：）