Parsing 识别页面';主要内容

Parsing 识别页面';主要内容,parsing,semantics,Parsing,Semantics,给定一个文本密集的HTML页面,我想识别并解析出主要内容 举个例子,我想识别div#post-4438372351887392855,它包含标题和文章 我知道没有什么是完美的,也没有什么能在100%的时间里工作,但有没有一种方法可以在合理的情况下给我理想的结果 我现在的想法是迭代每个div,去掉标记,然后找到最里面的div,其中包含的文本最多 在这一点上,我只是刚刚开始,所以我可以把一个概念的方法输入寻找。或者,如果有什么东西在那里,一个开源库会很好 提前感谢您提供的见解。arc90的一些员工在

给定一个文本密集的HTML页面,我想识别并解析出主要内容

举个例子,我想识别div#post-4438372351887392855,它包含标题和文章

我知道没有什么是完美的,也没有什么能在100%的时间里工作,但有没有一种方法可以在合理的情况下给我理想的结果

我现在的想法是迭代每个div,去掉标记,然后找到最里面的div,其中包含的文本最多

在这一点上,我只是刚刚开始,所以我可以把一个概念的方法输入寻找。或者,如果有什么东西在那里,一个开源库会很好


提前感谢您提供的见解。

arc90的一些员工在这方面做得非常出色。 它似乎很好地找到了“主要”内容——在您列出的页面上效果很好。

您可以查看他们评论良好的javascript(在bookmarklet中链接到),但您可能希望联系开发人员,征求他们的想法和使用许可。

主要内容提取资源的最完整编译列表是:

  • 还可以查看评论,因为这里有额外的提示