Hadoop中异构XML文档的处理

Hadoop中异构XML文档的处理,xml,hadoop,mahout,Xml,Hadoop,Mahout,我使用hadoop 1.1.1。在处理XML文档时,我使用MAHOUT中现有的XmlInputFormat。很明显,应该分配开始标记和结束标记。这种过程适用于以下类型的数据: 根据我说的,我分配START_TAG=和END_TAG=。 如果文件或数据采用以下格式*: 文件1: 和文件2: 如何分配开始标记和结束标记? 在hadoop中如何处理此类数据 非常感谢可以使用全局本体动态定义不同文档类型使用的开始和结束标记。在处理异构系统时,开发全局本体应该始终是集成这些系统的优先事项。对于doc1和d

我使用hadoop 1.1.1。在处理XML文档时,我使用MAHOUT中现有的XmlInputFormat。很明显,应该分配开始标记和结束标记。这种过程适用于以下类型的数据:

根据我说的,我分配START_TAG=和END_TAG=。 如果文件或数据采用以下格式*:

文件1:

和文件2:

如何分配开始标记和结束标记? 在hadoop中如何处理此类数据


非常感谢

可以使用全局本体动态定义不同文档类型使用的开始和结束标记。在处理异构系统时,开发全局本体应该始终是集成这些系统的优先事项。

对于doc1和doc2,是lib和doc是XML文档根元素,还是这些元素的多个实例构成了文档?我的文档由多个实例组成。你可以在下面的网站上找到:做二三,四吗?不同的文档类型将其类型编码到文件名doc1.lib.xml和doc2.doc.xml中,或者它们混合在同一个xml文档中?我想在hadoop中对一系列不同的xml文档进行分类。我有1000个xml文档,它们由4个类组成。在hadoop中如何处理此类数据?而XmlInputFormat有一个开始标记和一个结束标记!!!
<lib>
    <book> ... </book>
    <book> ... </book>
    <book> ... </book>
    ...
</lib>
<lib>
    <book> ... </book>
    <article> ... </article>
    <journal> ... </journal>
    <www> ... </www>
    ...
</lib>
<Doc>
    <paper> ... </paper>
    <white_paper> ... </white_paper>
    <report> ... </report>
    <booklet> ... </booklet>
    ...
</Doc>