将大型XML文件拆分为Hadoop的可管理部分

将大型XML文件拆分为Hadoop的可管理部分,xml,hadoop,Xml,Hadoop,在Hadoop中,是否有一个输入类可以根据树结构处理[多个]大型XML文件?我有一组具有相同模式的XML文件,但我需要将它们拆分为数据部分,而不是将这些部分拆分 例如,XML文件将是: <root> <parent> data </parent> <parent> more data</parent> <parent> even more data</parent> </root> 资

在Hadoop中,是否有一个输入类可以根据树结构处理[多个]大型XML文件?我有一组具有相同模式的XML文件,但我需要将它们拆分为数据部分,而不是将这些部分拆分

例如,XML文件将是:

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

资料
更多数据
更多数据
我将每个部分定义为: /根/父

我想问的是:Hadoop是否已经包含了一个记录输入读取器来执行此操作?

我认为可能会对您有所帮助

该库提供了一个可能有用的


同样令人感兴趣的是Cloud9文档中的这一页,它介绍了如何处理问题。

性能有多重要?记录输入阅读器可以,但速度很慢。。。那可以接受吗?呃。。这是学校的作业,所以表演没什么大不了的。。。但是如果不把它列为回答而不是评论,那会更好吗?我不确定它是否回答了你的问题:)