是否使用类似HTML的功能管理(.NET)库?
是否有一个针对.NET的HTML清理程序可以解析HTML并(例如)将其转换为更为机器友好的格式,例如 我尝试过HTML敏捷包,但它甚至无法正确解析示例 要给出应正确解析的HTML示例,请执行以下操作:是否使用类似HTML的功能管理(.NET)库?,.net,html-parsing,htmltidy,.net,Html Parsing,Htmltidy,是否有一个针对.NET的HTML清理程序可以解析HTML并(例如)将其转换为更为机器友好的格式,例如 我尝试过HTML敏捷包,但它甚至无法正确解析示例 要给出应正确解析的HTML示例,请执行以下操作: <html><title>test</title> <body> <ul><li>TestElem1 <li>TestElem2 <li>TestElem3 Li
<html><title>test</title>
<body>
<ul><li>TestElem1
<li>TestElem2
<li>TestElem3 List:
<ul><li>Nested1
<li>Nested2</li>
<li>Nested3
</ul>
<li>TestElem4
</ul>
<p>paragraph 1
<p>paragraph 2
<p>paragraph 3
</body></html>
由于其目的是在各种机器上使用库,因此需要退回到本机代码(如包装器)是一个很大的缺点,这将需要额外的部署麻烦并牺牲平台独立性,更不用说在沙盒场景中是不可能的了
有什么建议吗?
总而言之,我正在寻找:
- HTML清理器和HTML清理器
- 必须能够处理现实世界的HTML,而不仅仅是XHTML,至少正确阅读有效的HTML4
- 必须能够转换为更易于处理的XML格式
- 应该是一个纯托管的应用程序
<html><title>test</title>
<body>
<ul><li>TestElem1</li>
<li>TestElem2</li>
<li>TestElem3 List:
<ul><li>Nested1</li>
<li>Nested2</li>
<li>Nested3</li>
</ul></li>
<li>TestElem4</li>
</ul>
<p>paragraph 1</p>
<p>paragraph 2</p>
<p>paragraph 3</p>
</body></html>