如何使用Powershell将XML文件拆分为较小的文件

如何使用Powershell将XML文件拆分为较小的文件,xml,powershell,onix,Xml,Powershell,Onix,我有大型XML文件(“ONIX”标准),我想拆分。基本结构是: <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE ONIXmessage SYSTEM "http://www.editeur.org/onix/2.1/short/onix-international.dtd"> <!-- DOCTYPE is not always present and might look differently --> &l

我有大型XML文件(“ONIX”标准),我想拆分。基本结构是:

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE ONIXmessage SYSTEM "http://www.editeur.org/onix/2.1/short/onix-international.dtd">
<!-- DOCTYPE is not always present and might look differently -->
<ONIXmessage> <!-- sometimes with an attribute -->
<header>
...
</header> <!-- up to this line every out-file should be identical to source -->
<product> ... </product>
<product> ... </product>
...
<product> ... </product>
<ONIXmessage>

...
... 
... 
...
... 
我想做的是把这个文件分成n个大小大致相同的小文件。为此,我要计算
节点的数量,将它们除以n,然后将它们克隆到n个新的xml文件中。我搜索了很多,这项任务似乎比我想象的要难

  • 到目前为止,我无法解决的问题是克隆一个具有相同XML声明、doctype、根元素和
    节点,但没有
    s
    的新XML文档。我可以使用正则表达式来实现这一点,但我更愿意使用xml工具
  • 将多个
    节点传输到新的XML文档的最聪明的方法是什么?对象表示法,如
    $xml.ONIXmessage.product |%{copy…}
    XPath()
    查询(可以用XPath()选择n个节点吗?)和
    CloneNode()
    XMLReader
    /
    XMLWriter
  • 节点的内容在格式和编码方面应该相同。如何确保这一点

  • 我会非常感激你朝着正确的方向努力 将XML导入数组。将array.count除以n,然后循环通过数组导出到新的XML文件。在导出之前,可能必须创建n个数组

    e、 g:使用Import-Clixml和Export-Clixml cmdlet

    假定所有XML节点都是相同的对象类型。

    一种方法是:

  • 复制xml文件
  • 删除副本中的所有productnodes
  • 使用循环一次将一个产品从原始文件复制到其中一个副本
  • 当达到产品每文件数限制时,保存当前文件(副本)并创建新文件
  • 例如:

    param($path, [int]$maxitems)
    
    $file = Get-ChildItem $path
    
    ################
    
    #Read file
    $xml = [xml](Get-Content -Path $file.FullName | Out-String)
    $product = $xml.SelectSingleNode("//product")
    $parent = $product.ParentNode
    
    #Create copy-template
    $copyxml = [xml]$xml.OuterXml
    $copyproduct = $copyxml.SelectSingleNode("//product")
    $copyparent = $copyproduct.ParentNode
    #Remove all but one product (to know where to insert new ones)
    $copyparent.SelectNodes("product") | Where-Object { $_ -ne $copyproduct } | ForEach-Object { $copyparent.RemoveChild($_) } > $null
    
    $allproducts = @($parent.SelectNodes("product"))
    $totalproducts = $allproducts.Count
    
    $fileid = 1
    $i = 0
    
    foreach ($p in $allproducts) {
        #IF beggining or full file, create new file
        if($i % $maxitems -eq 0) {
            #Create copy of file
            $newFile = [xml]($copyxml.OuterXml)
            #Get parentnode
            $newparent = $newFile.SelectSingleNode("//product").ParentNode
            #Remove all products
            $newparent.SelectNodes("product") | ForEach-Object { $newparent.RemoveChild($_) } > $null
        }
    
        #Copy productnode
        $cur = $newFile.ImportNode($p,$true)
        $newparent.AppendChild($cur) > $null
    
        #Add 1 to "items moved"
        $i++ 
    
        #IF Full file, save
        if(($i % $maxitems -eq 0) -or ($i -eq $totalproducts)) {
            $newfilename = $file.FullName.Replace($file.Extension,"$fileid$($file.Extension)")
            $newFile.Save($newfilename)
            $fileid++
        }
    
    }
    
    更新:由于性能在这里很重要,我创建了一个新版本的脚本,它使用foreach循环和xml模板来删除99%的读取操作和删除操作。这个概念仍然是一样的,但它是以不同的方式执行的

    基准:

    10 items, 3 per xml OLD solution: 0.0448831 seconds
    10 items, 3 per xml NEW solution: 0.0138742 seconds
    16001 items, 1000 per xml items OLD solution: 73.1934346 seconds
    16001 items, 1000 per xml items NEW solution: 5.337443 seconds
    

    有趣的方法。不幸的是,
    s
    的内容可能会有很大差异。我仍然不知道如何复制标题。如果没有XML的副本,很难确定。然而,您的XML文件似乎包含“仅”产品,如果您使用Import-Clixml将它们读入一个数组,您将得到一个产品对象数组。每一个都可以有不同的属性。然后,当您使用Export-Clixml时,它将从具有适当属性的数组对象创建新的XML节点?CliXML!=XML。这是一种导出PowerShell对象的特殊格式,如果您尝试导入他的示例,它将失败。您的代码运行得非常好-非常感谢。我必须用
    SelectNodes(//product”)
    替换
    SelectNodes(
    )(与
    SelectSingleNode()
    )我目前无法解决的问题:
    @($parent.product)。当没有
    时,Count
    给出
    1
    。我尝试了
    ($parent.product).Count
    ,但当剩下一个
    时,结果是
    NULL
    。获取节点数的可靠方法是什么?该代码在PowerShell 5.0中与您的示例一起工作(据我所知,应与3.0+一起工作)。
    selectnodes(“product”)
    的要点是我在父节点本身上使用它,所以只要产品具有相同的父节点(您的示例具有相同的父节点),就不必使用“/”。“//”应该只在第一时间检测产品时才有必要(因为DOCTYPE是“可选的”,所以必须使用它)。至于产品数量,我想你可以使用
    @($parent.SelectNodes(“产品”)).count
    。现在我尝试了一个12000
    (大约80MB)的文件。处理大约需要5分钟,这对我来说太慢了。此外,[CDATA]部分中的Unicode字符传输也无法正常工作。我用记事本++打开了这两个文件。源文件似乎有BOM表,但输出没有。也许这就是Unicode字符在输出中显示为2个字符的原因。看起来我必须用regex开发一个纯文本版本…文本解析总是更快,但需要更多的手动工作。有关使用xml对象的更快版本,请参见更新。您仍然需要处理编码、测试(路径不存在,xml++中没有产品)等。至于编码,您可能需要使用textwriter/stream编写,或者在读取文件时指定编码
    $newfile.Save(字符串文件名)
    据我所知写UTF8(您在xmldeclaration中声明了所需的UTF8),但听起来像是得到了UTF16或其他东西。我们没有原始数据,所以这是您需要解决的问题(您有数据)。记住StackOverflow是一项免费服务,这一点很重要。我们在这里不是免费为任何人工作,但我们试图帮助当前和未来的读者解决具体问题。因此,这里的许多答案都是概念证明,就像我上面的解决方案一样,用于展示概念/想法。在用于生产环境之前,它们通常需要进行一些修改或优化。