将大型XML文件拆分为Hadoop的可管理部分
在Hadoop中,是否有一个输入类可以根据树结构处理[多个]大型XML文件?我有一组具有相同模式的XML文件,但我需要将它们拆分为数据部分,而不是将这些部分拆分 例如,XML文件将是:将大型XML文件拆分为Hadoop的可管理部分,xml,hadoop,Xml,Hadoop,在Hadoop中,是否有一个输入类可以根据树结构处理[多个]大型XML文件?我有一组具有相同模式的XML文件,但我需要将它们拆分为数据部分,而不是将这些部分拆分 例如,XML文件将是: <root> <parent> data </parent> <parent> more data</parent> <parent> even more data</parent> </root> 资
<root>
<parent> data </parent>
<parent> more data</parent>
<parent> even more data</parent>
</root>
资料
更多数据
更多数据
我将每个部分定义为:
/根/父
我想问的是:Hadoop是否已经包含了一个记录输入读取器来执行此操作?我认为可能会对您有所帮助
该库提供了一个可能有用的
同样令人感兴趣的是Cloud9文档中的这一页,它介绍了如何处理问题。性能有多重要?记录输入阅读器可以,但速度很慢。。。那可以接受吗?呃。。这是学校的作业,所以表演没什么大不了的。。。但是如果不把它列为回答而不是评论,那会更好吗?我不确定它是否回答了你的问题:)