Python 删除属于特定命名空间的所有XML元素

Python 删除属于特定命名空间的所有XML元素,python,lxml,digital-signature,libxml2,saml,Python,Lxml,Digital Signature,Libxml2,Saml,我是一个XML初学者。我使用lxml-python-libs来处理SAML文档,但是我的问题实际上与SAML或SSO无关 非常简单,我需要删除这个XML文档中所有属于“ds”名称空间的元素。我查看了Xpath搜索,查看了findall(),但我不知道如何使用名称空间 原始文档如下所示: <Response IssueInstant="dateandtime" ID="redacted" Version="2.0" xmlns="urn:oasis:names:tc:SAML:2.0:pro

我是一个XML初学者。我使用lxml-python-libs来处理SAML文档,但是我的问题实际上与SAML或SSO无关

非常简单,我需要删除这个XML文档中所有属于“ds”名称空间的元素。我查看了Xpath搜索,查看了findall(),但我不知道如何使用名称空间

原始文档如下所示:

<Response IssueInstant="dateandtime" ID="redacted" Version="2.0" xmlns="urn:oasis:names:tc:SAML:2.0:protocol" xmlns:saml="urn:oasis:names:tc:SAML:2.0:assertion" xmlns:ds="http://www.w3.org/2000/09/xmldsig#" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
  <saml:Issuer>redacted.com</saml:Issuer>
  <Status>
    <StatusCode Value="urn:oasis:names:tc:SAML:2.0:status:Success"/>
  </Status>
  <saml:Assertion Version="2.0" IssueInstant="redacted" ID="redacted">
    <saml:Issuer>redacted</saml:Issuer>
    <ds:Signature>
      <ds:SignedInfo>
        <ds:CanonicalizationMethod Algorithm="http://www.w3.org/2001/10/xml-exc-c14n#"/>
        <ds:SignatureMethod Algorithm="http://www.w3.org/2000/09/xmldsig#rsa-sha1"/>
        <ds:Reference URI="#redacted">
          <ds:Transforms>
            <ds:Transform Algorithm="http://www.w3.org/2000/09/xmldsig#enveloped-signature"/>
            <ds:Transform Algorithm="http://www.w3.org/2001/10/xml-exc-c14n#"/>
          </ds:Transforms>
          <ds:DigestMethod Algorithm="http://www.w3.org/2000/09/xmldsig#sha1"/>
          <ds:DigestValue>redacted</ds:DigestValue>
        </ds:Reference>
      </ds:SignedInfo>
      <ds:SignatureValue>redacted==</ds:SignatureValue>
      <ds:KeyInfo>
        <ds:X509Data>
          <ds:X509Certificate>certificateredacted=</ds:X509Certificate>
        </ds:X509Data>
        <ds:KeyValue>
          <ds:RSAKeyValue>
            <ds:Modulus>modulusredacted==</ds:Modulus>
            <ds:Exponent>AQAB</ds:Exponent>
          </ds:RSAKeyValue>
        </ds:KeyValue>
      </ds:KeyInfo>
    </ds:Signature>
    <saml:Subject>
      <saml:NameID Format="urn:oasis:names:tc:SAML:1.1:nameid-format:unspecified">subject_redacted</saml:NameID>
      <saml:SubjectConfirmation Method="urn:oasis:names:tc:SAML:2.0:cm:bearer">
        <saml:SubjectConfirmationData NotOnOrAfter="date_time_redacted" Recipient="https://website.com/redacted"/>
      </saml:SubjectConfirmation>
    </saml:Subject>
    <saml:Conditions NotOnOrAfter="date_time_redacted" NotBefore="date_time_redacted">
      <saml:AudienceRestriction>
        <saml:Audience>audience_redacted</saml:Audience>
      </saml:AudienceRestriction>
    </saml:Conditions>
    <saml:AuthnStatement AuthnInstant="date_time_redacted" SessionIndex="date_time_redacted">
      <saml:AuthnContext>
        <saml:AuthnContextClassRef>urn:oasis:names:tc:SAML:2.0:ac:classes:unspecified</saml:AuthnContextClassRef>
      </saml:AuthnContext>
    </saml:AuthnStatement>
    <saml:AttributeStatement xmlns:xs="http://www.w3.org/2001/XMLSchema">
      <saml:Attribute NameFormat="urn:oasis:names:tc:SAML:2.0:attrname-format:unspecified" Name="attribute_name_redacted">
        <saml:AttributeValue xsi:type="xs:string">attribute=redacted</saml:AttributeValue>
      </saml:Attribute>
      <saml:Attribute NameFormat="urn:oasis:names:tc:SAML:2.0:attrname-format:unspecified" Name="attribute_name_redacted">
        <saml:AttributeValue xsi:type="xs:string">value_redacted</saml:AttributeValue>
      </saml:Attribute>
    </saml:AttributeStatement>
  </saml:Assertion>
</Response>

编辑网
编辑
编辑
编辑==
证书编辑=
模块编辑==
AQAB
主题编辑
编撰
urn:oasis:name:tc:SAML:2.0:ac:classes:未指定
属性=已编辑
价值编辑
我想要的是一个如下所示的文档:


编辑网
编辑
主题编辑
编撰
urn:oasis:name:tc:SAML:2.0:ac:classes:未指定
属性=已编辑
价值编辑

使用xsl样式表很容易做到这一点。这可能是你最好的方法


您可以使用(对于libxml2)或等效工具从命令行运行此命令:

xsltproc-o directoryname/no_ds.xsl file1.xml file2.xml
这将创建不带ds命名空间的directoryname/file1.xml和directoryname/file2.xml

您也可以使用lxml来实现这一点


由于XSLT文档是XML文档,您甚至可以使用lxml动态创建自定义XSLT样式表,并定义要动态省略的名称空间。(留给读者作为练习。)

您可以使用XPath和
//名称空间:
在名称空间中找到元素,例如:

doc_root.xpath('//ds:*', namespaces={'ds': 'http://www.w3.org/2000/09/xmldsig#'})
因此,要删除此名称空间中的所有子项,可以使用如下内容:

def strip_dsig(doc_root):
    nsmap={'ds': 'http://www.w3.org/2000/09/xmldsig#'}
    for element in doc_root.xpath('//ds:*', namespaces=nsmap):
        element.getparent().remove(element)
    return doc_root

非常感谢。这非常有效,并且比XSLT更简单。
doc_root.xpath('//ds:*', namespaces={'ds': 'http://www.w3.org/2000/09/xmldsig#'})
def strip_dsig(doc_root):
    nsmap={'ds': 'http://www.w3.org/2000/09/xmldsig#'}
    for element in doc_root.xpath('//ds:*', namespaces=nsmap):
        element.getparent().remove(element)
    return doc_root