C# 如何从WebBrowser控件提取XML?

C# 如何从WebBrowser控件提取XML?,c#,.net,xml,winforms,webbrowser-control,C#,.net,Xml,Winforms,Webbrowser Control,我想要与WebBrowser.Document.Body.InnerHtml相同的格式,但是作为XML表示。将HTML清理为XHTML 这是。。您可以通过其IDispatchEx接口访问它 您可以通过获取文档的COM接口。您是使用WebBrowser浏览XML文档并希望在代码中获取该XML,还是尝试浏览到HTML页面并将HTML表示为XML 如果是前者,您可能只需要从WebBrowser获取原始文本(可能是InnerText而不是InnerHTML)并将其解析为XML 如果是后者,问题是HTML

我想要与
WebBrowser.Document.Body.InnerHtml相同的格式,但是作为XML表示。

将HTML清理为XHTML

这是。

。您可以通过其IDispatchEx接口访问它


您可以通过获取文档的COM接口。

您是使用WebBrowser浏览XML文档并希望在代码中获取该XML,还是尝试浏览到HTML页面并将HTML表示为XML

如果是前者,您可能只需要从WebBrowser获取原始文本(可能是InnerText而不是InnerHTML)并将其解析为XML

如果是后者,问题是HTML不是XML(除非是XHTML)


您可以使用“tidy”工具将其转换为XML,但表示的准确性取决于原始HTML的格式有多好。

(等待有人提及regex。)