从混合xml/html中只提取带前缀元素的更简单方法
这是我的工作噩梦:我们有一堆文件,它们是html页面,但包含额外的xml元素(都以公司名称“TLA”为前缀),为我现在正在重写的旧程序提供数据和结构 示例表格:从混合xml/html中只提取带前缀元素的更简单方法,html,xml,xslt,Html,Xml,Xslt,这是我的工作噩梦:我们有一堆文件,它们是html页面,但包含额外的xml元素(都以公司名称“TLA”为前缀),为我现在正在重写的旧程序提供数据和结构 示例表格: <html > <head> <title>Highly Simplified Example Form</title> </head> <body> <TLA:document> <TLA:contexts>
<html >
<head>
<title>Highly Simplified Example Form</title>
</head>
<body>
<TLA:document>
<TLA:contexts>
<TLA:context id="id_1" value=""></TLA:context>
</TLA:contexts>
<TLA:page>
<TLA:question id="q_id_1">
<table>
<tr>
<td>
<input id="input_id_1" type="text" />
</td>
</tr>
</table>
</TLA:question>
</TLA:page>
<!-- Repeat many times -->
</TLA:document>
</body>
</html>
高度简化的示例形式
我的任务是编写一个预处理器,将这样的文档拆分为两个文档:一个仅包含“TLA”元素的xml文件和一个仅包含html元素的html文件
XML示例:
<?xml version="1.0" encoding="utf-8" ?>
<TLA:document>
<TLA:contexts>
<TLA:context id="id_1" value=""></TLA:context>
</TLA:contexts>
<TLA:page>
<TLA:question id="q_id_1">
</TLA:question>
</TLA:page>
<!-- Repeat many times -->
</TLA:document>
HTML示例:
<html >
<head>
<title>Highly Simplified Example Form</title>
</head>
<body>
<table>
<tr>
<td>
<input id="input_id_1" type="text" />
</td>
</tr>
</table>
<!-- Repeat many times -->
</body>
</html>
高度简化的示例形式
现在我可以通过一次一个地处理每个元素并将它们复制到新文档中来实现这一点,但我认为通过使用一次或两次转换或一些巧妙的序列化,可能有一种更简单的方法来实现这一点,但我不知道要探索哪种途径
那么,对于如何处理这一问题,有人有什么建议吗?理想情况下是VB.net,但也可以接受C#或其他内容
更新:
xslt似乎是实现这一点的方法,但我对它知之甚少,因此仍然需要一些帮助。似乎//namespace::TLA可能是提取数据元素的正确xpath,但我不知道如何实现它。XSLT是解决此问题的最佳选择
- 要提取HTML,请参阅李>
- 要提取名称空间,请参阅