C# C中基于XSD的Xml清洗_C#_Xml_Xsd_Xsd Validation

C# C中基于XSD的Xml清洗

c# xml xsd

C# C中基于XSD的Xml清洗,c#,xml,xsd,xsd-validation,C#,Xml,Xsd,Xsd Validation,如何清除XML文件以删除所提供XSD中不存在的所有元素这不起作用： public static void Main() { XmlTextReader xsdReader = new XmlTextReader(@"books.xsd"); XmlSchema schema = XmlSchema.Read(xsdReader, null); XmlReaderSettings settings = new XmlReaderSettings(); setti

如何清除XML文件以删除所提供XSD中不存在的所有元素

这不起作用：

public static void Main()
{
    XmlTextReader xsdReader = new XmlTextReader(@"books.xsd");
    XmlSchema schema = XmlSchema.Read(xsdReader, null);

    XmlReaderSettings settings = new XmlReaderSettings();
    settings.Schemas.Add(schema);
    settings.ValidationType = ValidationType.Schema;
    settings.ValidationEventHandler += new ValidationEventHandler(ValidationCallBack);

    XmlReader xmlReader = XmlReader.Create(@"books.xml", settings);
    XmlWriter xmlWriter = XmlWriter.Create(@"books_clean.xml");
    xmlWriter.WriteNode(xmlReader, true);
    xmlWriter.Close();
    xmlReader.Close();
}
private static void ValidationCallBack(object sender, ValidationEventArgs args)
{
    ((XmlReader)sender).Skip();
}

当我使用上面的方法时，它不是删除所有的垃圾标签，而是只删除第一个垃圾标签，留下第二个。至于我为什么需要接受这个文件，我使用的是一个旧的SQLServer2012实例，它要求XML与XSD完全匹配，即使应用程序不使用XML中的额外元素。我无法控制源XML，它是由第三方工具使用未发布的XSD提供的

示例文件： Books.xsd

<xs:schema attributeFormDefault="unqualified" elementFormDefault="qualified" xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="bookstore">
    <xs:complexType>
      <xs:sequence>
        <xs:element name="book" maxOccurs="unbounded" minOccurs="0">
          <xs:complexType>
            <xs:sequence>
              <xs:element type="xs:string" name="title"/>
              <xs:element type="xs:float" name="price"/>
            </xs:sequence>
            <xs:attribute type="xs:string" name="genre" use="optional"/>
            <xs:attribute type="xs:string" name="ISBN" use="optional"/>
          </xs:complexType>
        </xs:element>
      </xs:sequence>
    </xs:complexType>
  </xs:element>
</xs:schema>

Books.xml

<bookstore>
  <book genre='novel' ISBN='10-861003-324'>
    <title>The Handmaid's Tale</title>
    <price>19.95</price>
    <junk>skdjgklsdg</junk>
    <junk2>skdjgklsdg</junk2>
  </book>
  <book genre='novel' ISBN='1-861001-57-5'>
    <title>Pride And Prejudice</title>
    <price>24.95</price>
    <junk>skdjgssklsdg</junk>
  </book>
</bookstore>

代码主要复制自：

如果只是删除模式中任何位置都没有名称的所有元素的问题，那么它可能是可行的，如下所述。但是，在一般情况下，a这不能确保实例对模式有效，例如，元素的顺序可能错误，b它可能会删除模式实际允许的元素，因为通配符

如果删除未知元素的方法看起来很有用，您可以按如下方式执行：

编写一个XSLT样式表，通过查找xs:element[@name]声明，从模式中提取所有元素名称，并生成格式为：

<allowedElements>
  <allow name="book" namespace=""/>
  <allow name="isbn" namespace=""/>
</allowedElement>

b编写第二个可流化的XSLT样式表：

<xsl:transform version="3.0" xmlns:xsl="....">
  <xsl:mode on-no-match="shallow-copy" streamable="yes"/>
  <xsl:key name="k" match="allow" use="@name, @namespace" composite="yes"/>
  <xsl:template match="*[not(key('k', (local-name(), namespace-uri()), doc('allowed-elements.xml'))]"/>
</xsl:transform>

下面的示例成功地从提供的示例中删除了所有垃圾标记。第二个xsl:template标记将首先应用，并匹配除特别列出的白色标记之外的所有标记。然后，第一个xsl:template标记将节点的副本写入XmlWriter

代码：

books.xslt

源XML文件为~500mb，最后一个输入文件有~120K个可用节点和~800K个未使用节点。所以，基于流的方法是首选的@jdweng试了一下，修改了问题。Reader.Read only在每个节点的第一个无效元素上引发ValidationEvent。它至少删除了两个标记，只是没有删除标记。问题是当您有类似于1、2、3、4、5的项，并且您删除了项“3 4变为3，5变为4”时。然后你就跳过了第四项。因此，解决方案是通过like fori=list.Count-1向后枚举；i>=0；我——这听起来很有希望，试图弄清楚如何使用多个XSLT文档并运行转换。我还没有得到一个工作的B部分XSLT文档。某处有个失踪的帕伦，我还没猜到它的位置。

public static void Main()
{
    XmlReader xmlReader = XmlReader.Create("books.xml");
    XslCompiledTransform myXslTrans = new XslCompiledTransform();
    myXslTrans.Load("books.xslt");
    XmlTextWriter myWriter = new XmlTextWriter("books_clean.xml", null);
    myXslTrans.Transform(xmlReader, null, myWriter);
    xmlReader.Close();
    myWriter.Close();
}

<xsl:stylesheet version="3.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
  <xsl:mode streamable="yes"/>
  <xsl:template match="@* | node()">
    <xsl:copy>
      <xsl:apply-templates select="@* | node()"/>
    </xsl:copy>
  </xsl:template>
  <xsl:template match="*[
  not(name()='bookstore') and
  not(name()='book') and
  not(name()='title') and
  not(name()='price')
  ]" />
</xsl:stylesheet>