从混合xml/html中只提取带前缀元素的更简单方法

从混合xml/html中只提取带前缀元素的更简单方法,html,xml,xslt,Html,Xml,Xslt,这是我的工作噩梦:我们有一堆文件,它们是html页面,但包含额外的xml元素(都以公司名称“TLA”为前缀),为我现在正在重写的旧程序提供数据和结构 示例表格: <html > <head> <title>Highly Simplified Example Form</title> </head> <body> <TLA:document> <TLA:contexts>

这是我的工作噩梦:我们有一堆文件,它们是html页面,但包含额外的xml元素(都以公司名称“TLA”为前缀),为我现在正在重写的旧程序提供数据和结构

示例表格:

<html >
<head>
    <title>Highly Simplified Example Form</title>
</head>
<body>
    <TLA:document>
        <TLA:contexts>
            <TLA:context id="id_1" value=""></TLA:context>
        </TLA:contexts>
        <TLA:page>
            <TLA:question id="q_id_1">
                <table>
                    <tr>
                        <td>
                            <input id="input_id_1" type="text" />
                        </td>
                    </tr>
                </table>
            </TLA:question>
        </TLA:page>
        <!-- Repeat many times -->
    </TLA:document>
</body>
</html>

高度简化的示例形式
我的任务是编写一个预处理器,将这样的文档拆分为两个文档:一个仅包含“TLA”元素的xml文件和一个仅包含html元素的html文件

XML示例:

<?xml version="1.0" encoding="utf-8" ?>
<TLA:document>
    <TLA:contexts>
      <TLA:context id="id_1" value=""></TLA:context>
    </TLA:contexts>
    <TLA:page>
      <TLA:question  id="q_id_1">
      </TLA:question>
    </TLA:page>
    <!-- Repeat many times -->
</TLA:document>

HTML示例:

<html >
<head>
    <title>Highly Simplified Example Form</title>
</head>
<body>
    <table>
        <tr>
            <td>
                <input id="input_id_1" type="text" />
            </td>
        </tr>
    </table>
    <!-- Repeat many times -->
</body>
</html>

高度简化的示例形式
现在我可以通过一次一个地处理每个元素并将它们复制到新文档中来实现这一点,但我认为通过使用一次或两次转换或一些巧妙的序列化,可能有一种更简单的方法来实现这一点,但我不知道要探索哪种途径

那么,对于如何处理这一问题,有人有什么建议吗?理想情况下是VB.net,但也可以接受C#或其他内容

更新:


xslt似乎是实现这一点的方法,但我对它知之甚少,因此仍然需要一些帮助。似乎//namespace::TLA可能是提取数据元素的正确xpath,但我不知道如何实现它。

XSLT是解决此问题的最佳选择

  • 要提取HTML,请参阅
  • 要提取名称空间,请参阅

在XSLT中应该非常容易,特别是在XSLT2.0中。但是我需要更好地理解您想要的输出:您能显示您想要从这个来源获得的两个文档吗?(特别是当TLA:page被重复时)@MichaelKay感谢您的建议,我也添加了示例输出。XSLT对我来说是一个新领域,所以我完全不确定它能做什么。我同意XSLT是最好的选择,但前提是完整的输入文件是格式良好的XML。有时HTML是格式良好的XML,但它不一定是,所以通常不是。如果不是,您可能需要手动解析文件以查找特定的开始和结束标记,或者如果这是一个变量,您可能需要查看类似HTML Agility Pack.HTML Agility Pack FTW的内容!