如何使用PHP将一个大的XML文件拆分成更小的文件？_Php_Xml_Split

如何使用PHP将一个大的XML文件拆分成更小的文件？

php xml

如何使用PHP将一个大的XML文件拆分成更小的文件？,php,xml,split,Php,Xml,Split,我有一个XML文件，其中包含超过300000个条目，我的脚本每天都要解析这些条目 xml的结构如下所示： <root> <item> <proper1></proper1> <proper2></proper2> </item> </root> 我需要将大的XML文件拆分成更小的文件，这样我的PHP就可以运行它们了，目前它无法处理它，因为它占用了

我有一个XML文件，其中包含超过300000个条目，我的脚本每天都要解析这些条目

xml的结构如下所示：

<root>
     <item>
        <proper1></proper1>
        <proper2></proper2>
    </item>
</root>

我需要将大的XML文件拆分成更小的文件，这样我的PHP就可以运行它们了，目前它无法处理它，因为它占用了太多的内存。

有人能帮我吗？

请看这篇文章

SAX解析

XML读取器拉式解析器

最适合这份工作

阅读上面的文章，用它尝试一些代码，你肯定会得到答案。

这在很大程度上取决于你的XML文件结构

例如，您可以这样做（假设结构是您发布的结构，包括回车，否则事情会变得更复杂）：

行切分版本：如果格式“恰到好处”，则快速切分一个大XML文件。
如果文件格式不完全相同，则会导致崩溃和烧录

然后我们调用该机器：“将test.xml拆分为item标记的5个实例”

这个实现的运行速度大约是开始时愚蠢的chunker的五倍，但可以处理同一行中的标记，甚至可以扩展以验证XML。

分割文件当然很容易，但您需要提供更多细节，比如如何分割文件。此外，如果每次都将整个内容加载到内存中，那么无论是1个文件还是100个文件，都没有区别，完成后将占用相同的内存。您需要阅读整个内容并存储它吗？我解析文件的脚本有DB查询和图像处理，因此我认为如果我准备xml，使每个文件的条目限制在20000到30000之间，会更好。因此，这个拆分应该以最大限制拆分条目。我知道这些，但在解析器中，当解析文件时，它会运行db查询和图像处理，这需要大量内存和处理时间。这就是为什么我需要在解析器得到它之前拆分这个大文件。我也曾怀疑过这一点，但maxjackie的建议（+1）很好：为了能够有效地分割文件，您要么做出快速的假设（就像我做的那样），要么使用更聪明、几乎同样快的XML解析器；不那么有效。。我有一个包含大约38000个项目的XML文件。由于某些原因，您的脚本只转储30000个。有什么想法吗？我认为它缺少1-2个块。我必须仔细研究XML才能理解原因。您可以向解析器添加调试代码-您使用的是哪一个检查发生了什么。好的，请检查这里的文件：你太棒了，这帮了我很多忙！有一件事希望能对其他人有所帮助：在处理之后，我遇到了各种xml导入错误，通过对代码进行两个小修改解决了这些错误。需要在第28行中使用htmlentities进行包装，如下所示：

$PAYLOAD.=“$k=“.””。htmlentities（addslashes（$v））。”并在第50行中，如下所示：$PAYLOAD.=htmlentities（$data）再次感谢@HonsaStunna这发生在处理最后一个块（其中还包含一个结束）的过程中。因此，我向processChunk添加了一个参数，让它知道何时处理文件的最后一个块。
$fp = fopen(XMLFILE, 'r');
$decl = fgets($fp, 1024);  // Drop the XML declaration '<?xml...?>'
$root = fgets($fp, 1024);  // Drop the root declaration
$n = 1;
while(!feof($fp)) {
    $tag = fgets($fp, 1024);
    if ('<item>' === $tag) {
        isset($gp) || trigger_error('Unexpected state');
        $gp = fopen("chunk{$n}.xml", 'w'); $n++;
        // Write the header of the file we saved from before
        fwrite($gp, $decl);
        fwrite($gp, $root);
    } else if ('</item>' === $tag) {
        fwrite($gp, $tag);
        fwrite($gp, '</root>');
        fclose($gp); unset($gp);
        continue;
    }
    if (!isset($gp)) {
        if ('</root>' === $tag /* EOF */) {
            break;
        } else {
            trigger_error('Unexpected state 2');
        }
    }
    fwrite($gp, $tag);
}
fclose($fp);
isset($gp) || trigger_error('Unexpected state 3');

 <root><item>(STUFF OF ITEM1)</item><item>(STUFF OF ITEM2)/item>....ITEM1234...</root>

 FILE1: <root><item>(1)</item><item>(2)</item>...(5)</root>
 FILE2: <root><item>(6)</item><item>(7)</item>...(10)</root>
 ...

    function processChunk($lastChunk = false) {
         GLOBAL $CHUNKS, $PAYLOAD, $ITEMCOUNT;
         if ('' == $PAYLOAD) {
             return;
         }
         $xp = fopen($file = "output-$CHUNKS.xml", "w");
         fwrite($xp, '<?xml version="1.0"?>'."\n");
             fwrite($xp, "<root>");
                 fwrite($xp, $PAYLOAD);
             $lastChunk || fwrite($xp, "</root>");
         fclose($xp);
         print "Written {$file}\n";
         $CHUNKS++;
         $PAYLOAD    = '';
         $ITEMCOUNT  = 0;
    }

    function startElement($xml, $tag, $attrs = array()) {
        GLOBAL $PAYLOAD, $CHUNKS, $ITEMCOUNT, $CHUNKON;
        if (!($CHUNKS||$ITEMCOUNT)) {
            if ($CHUNKON == strtolower($tag)) {
                $PAYLOAD = '';
            }
        }
        $PAYLOAD .= "<{$tag}";
        foreach($attrs as $k => $v) {
            $PAYLOAD .= " {$k}=\"" .addslashes($v).'"';
        }
        $PAYLOAD .= '>';
    }

    function endElement($xml, $tag) {
        GLOBAL $CHUNKON, $ITEMCOUNT, $ITEMLIMIT;
        dataHandler(null, "</{$tag}>");
        if ($CHUNKON == strtolower($tag)) {
             if (++$ITEMCOUNT >= $ITEMLIMIT) {
                 processChunk();
             }
        }
    }

    function dataHandler($xml, $data) {
        GLOBAL $PAYLOAD;
        $PAYLOAD .= $data;
    }

    function defaultHandler($xml, $data) {
        // a.k.a. Wild Text Fallback Handler, or WTFHandler for short.
    }

    function createXMLParser($CHARSET, $bareXML = false) {
            $CURRXML = xml_parser_create($CHARSET);
            xml_parser_set_option( $CURRXML, XML_OPTION_CASE_FOLDING, false);
            xml_parser_set_option( $CURRXML, XML_OPTION_TARGET_ENCODING, $CHARSET);
            xml_set_element_handler($CURRXML, 'startElement', 'endElement');
            xml_set_character_data_handler($CURRXML, 'dataHandler');
            xml_set_default_handler($CURRXML, 'defaultHandler');
            if ($bareXML) {
                xml_parse($CURRXML, '<?xml version="1.0"?>', 0);
            }
            return $CURRXML;
    }

    function chunkXMLBigFile($file, $tag = 'item', $howmany = 5) {
         GLOBAL $CHUNKON, $CHUNKS, $ITEMLIMIT;

         // Every chunk only holds $ITEMLIMIT "$CHUNKON" elements at most.
         $CHUNKON   = $tag;
         $ITEMLIMIT = $howmany;

         $xml = createXMLParser('UTF-8', false);

         $fp = fopen($file, 'r');
         $CHUNKS  = 0;
         while(!feof($fp)) {
              $chunk = fgets($fp, 10240);
              xml_parse($xml, $chunk, feof($fp));
         }
         xml_parser_free($xml);

         // Now, it is possible that one last chunk is still queued for processing.
         processChunk(true);
    }

    ChunkXMLBigFile('test.xml', 'item', 5);