C# 如何解析糟糕的html?

C# 如何解析糟糕的html?,c#,html,regex,C#,Html,Regex,我正在编写一个搜索引擎,它可以访问我公司所有的附属网站,解析html并将它们存储在数据库中。这些网站都很老了,10万个网站中有25%的网站的html不好,很难解析。我需要编写一个c#代码来修复糟糕的html,然后解析内容或提出解决上述问题的解决方案。若您正在考虑这个想法,一个实际的提示或代码片段会有所帮助 就用吧。解析错误的html代码非常好只需使用即可。解析错误的html代码非常好人们通常使用某种形式的启发式解析器 例如,为了 这些大多只是lexer,它们尽力从所有随机符号构建AST。

我正在编写一个搜索引擎,它可以访问我公司所有的附属网站,解析html并将它们存储在数据库中。这些网站都很老了,10万个网站中有25%的网站的html不好,很难解析。我需要编写一个c#代码来修复糟糕的html,然后解析内容或提出解决上述问题的解决方案。若您正在考虑这个想法,一个实际的提示或代码片段会有所帮助

就用吧。解析错误的html代码非常好

只需使用即可。解析错误的html代码非常好

人们通常使用某种形式的启发式解析器

例如,为了


这些大多只是lexer,它们尽力从所有随机符号构建AST。

人们通常使用某种形式的启发式驱动解析器

例如,为了


这些大多只是lexer,它们尽最大努力从所有随机符号构建AST。

使用tagsoup解析器,我相信最重要的是。然后可以将DOM序列化为或多或少有效的HTML,这取决于解析器是否符合HTMLDTD。或者,您可以使用,这将至少清除最严重的故障


正则表达式不适用于此任务。

请使用tagsoup解析器,我确信它是正确的。然后可以将DOM序列化为或多或少有效的HTML,这取决于解析器是否符合HTMLDTD。或者,您可以使用,这将至少清除最严重的故障


正则表达式不适用于此任务。

我知道Wordpress的可能副本有一个自动更正的html代码,您可以查看它的源代码以了解它们是如何执行的-并尝试相同的逻辑您所说的坏html是什么意思?如果标签没有关闭,我想解析将是一场噩梦。我知道Wordpress可能有一个自动更正的html代码,你可以查看它的源代码,看看它们是如何做的-并尝试相同的逻辑你说的坏html是什么意思?如果标签没有关闭之类的东西,我想解析将是一场噩梦。-1到HAP:它“解析”了它,但在我尝试过的许多页面上得到了完全错误的DOM模型。-1到HAP:它“解析”了它,但在我尝试过的许多页面上得到了完全错误的DOM模型。