使用Java拆分1GB Xml文件

使用Java拆分1GB Xml文件,java,xml,Java,Xml,我有一个1GB的Xml文件,如何使用Java将其拆分为格式良好、大小较小的Xml文件 以下是一个例子: <records> <record id="001"> <name>john</name> </record> .... </records> 厕所 .... 谢谢。对于这种情况,我会使用StAX解析器。它将防止整个文档一次读入内存 将XMLStreamReader前进到子片段的本地根元素 然后,您

我有一个1GB的Xml文件,如何使用Java将其拆分为格式良好、大小较小的Xml文件

以下是一个例子:

<records>
  <record id="001">
    <name>john</name>
  </record>
 ....
</records>

厕所
....

谢谢。

对于这种情况,我会使用StAX解析器。它将防止整个文档一次读入内存

  • 将XMLStreamReader前进到子片段的本地根元素
  • 然后,您可以使用javax.xml.transform API从这个xml片段生成一个新文档。这将把XMLStreamReader推进到该片段的末尾
  • 对下一个片段重复步骤1
  • 代码示例

    对于以下XML,将每个“语句”部分输出到以“帐户属性值”命名的文件中:


    我恭敬地不同意布莱斯·道格汉的观点。SAX不仅难以使用,而且速度非常慢。使用VTD-XML,您不仅可以使用XPath简化处理逻辑(通常减少10倍的代码),而且速度更快,因为没有冗余的编码/解码转换。下面是使用vtd xml的java代码

    import java.io.FileOutputStream;
    import com.ximpleware.*; 
    
    public class split {
        public static void main(String[] args) throws Exception {       
            VTDGen vg = new VTDGen();       
            if (vg.parseHttpUrl("c:\\xml\\input.xml", true)) {
                VTDNav vn = vg.getNav();
                AutoPilot ap = new AutoPilot(vn);
                ap.selectXPath("/records/record");
                int i=-1,j=0;
                while ((i = ap.evalXPath()) != -1) {
                long l=vn.getElementFragment();
                    (new FileOutputStream("out"+j+".xml")).write(vn.getXML().getBytes(), (int)l,(int)(l>>32));
                    j++;
                }
            }
        }
    }
    

    试试这个,使用Saxon EE 9.3

    <xsl:stylesheet version="3.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
        <xsl:mode streamable="yes"/>
        <xsl:template match="record">
          <xsl:result-document href="record-{@id}.xml">
            <xsl:copy-of select="."/>
          </xsl:result-document>
        </xsl:template>
    </xsl:stylesheet>
    
    
    

    该软件不是免费的,但如果它能节省你一天的编码时间,你就可以很容易地证明投资的合理性。(为这次推销致歉)。

    DOM、STax、SAX都可以,但都有各自的优点和缺点

  • 在DOM的情况下,不能将所有数据都放在内存中
  • 在DOM、Stax和SAX的情况下,编程控制更容易
  • SAX和DOM的组合是更好的选择
  • 使用已经做到这一点的框架可能是最好的选择。看看smooks

  • 希望这对您有所帮助,这取决于您正在处理的XML类型。也许您可以发布一个小示例来描述您的文件以及您希望如何将其拆分。因为正如larsmans提到的,这在很大程度上取决于它的结构以及小数据块应该是什么样子的。像约翰这样……要么是SAX(明显的选择),要么是多GB 64位java,享受vtd xml带来的乐趣,代码的总行数可能低于15行。当我们可以直接从XMLStreamReader传输到XMLStreamWriter,在每个第n个记录元素之间滚动到一个新文件时,为什么要涉及javax.xml.transform?是的,这是一个热门技巧,只是将它们“管道”在一起,偶尔“关闭”并每隔N条记录重新打开XMLStreamWriter。无法转换javax.xml.transform.stax.StAXSource类型的源???@Beta033-您使用的是哪个版本的JDK。我只是按原样重新运行代码,它工作得非常好。我正在为Mac使用Oracle JDK 1.7.0。@Somu我确实必须将
    while
    循环更改为
    while(xsr.isStartElement()| | xsr.nextTag()==XMLStreamConstants.START_元素)
    并在
    while
    循环之前添加一个额外的
    xsr.nextTag()
    。也许这对你也有用?问题是子片段转换也会前进到下一个元素,因此
    nextTag()
    移动的层次太深。我的建议是使用StAX而不是SAX。另外,从VTD-XML FAQ()来看,问题中提到的1GB文件大小是VTD-XML处理名称空间限定XML范围的上限。StAX和SAX之间没有明显的性能差异。两者都是你能得到的最快速度。然而,有些人可能会发现StAX更易于使用——使用基于事件的编程模型(如SAX)需要更多的编程成熟度。如果不支持命名空间,vtd xml支持文件大小高达2GB。扩展VTD-XML的文件大小限制为256 GB,即使支持命名空间也是如此;字节[]b=新字节[(int)f.length()]。所以,将所有文件加载到内存中。这真是令人恶心。@vtd xml作者OP没有提到它需要在什么类型的环境中运行。但是如果它是一个多用户环境,并且每个用户可能都在运行此代码,那么一台4 GB的机器将允许最多4个用户像这样拆分一个1 GB的文件。这可能还不够。
    import java.io.FileOutputStream;
    import com.ximpleware.*; 
    
    public class split {
        public static void main(String[] args) throws Exception {       
            VTDGen vg = new VTDGen();       
            if (vg.parseHttpUrl("c:\\xml\\input.xml", true)) {
                VTDNav vn = vg.getNav();
                AutoPilot ap = new AutoPilot(vn);
                ap.selectXPath("/records/record");
                int i=-1,j=0;
                while ((i = ap.evalXPath()) != -1) {
                long l=vn.getElementFragment();
                    (new FileOutputStream("out"+j+".xml")).write(vn.getXML().getBytes(), (int)l,(int)(l>>32));
                    j++;
                }
            }
        }
    }
    
    <xsl:stylesheet version="3.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
        <xsl:mode streamable="yes"/>
        <xsl:template match="record">
          <xsl:result-document href="record-{@id}.xml">
            <xsl:copy-of select="."/>
          </xsl:result-document>
        </xsl:template>
    </xsl:stylesheet>