Parsing 识别页面'；主要内容_Parsing_Semantics

Parsing 识别页面'；主要内容

parsing

Parsing 识别页面'；主要内容,parsing,semantics,Parsing,Semantics,给定一个文本密集的HTML页面，我想识别并解析出主要内容举个例子，我想识别div#post-4438372351887392855，它包含标题和文章我知道没有什么是完美的，也没有什么能在100%的时间里工作，但有没有一种方法可以在合理的情况下给我理想的结果我现在的想法是迭代每个div，去掉标记，然后找到最里面的div，其中包含的文本最多在这一点上，我只是刚刚开始，所以我可以把一个概念的方法输入寻找。或者，如果有什么东西在那里，一个开源库会很好提前感谢您提供的见解。arc90的一些员工在

给定一个文本密集的HTML页面，我想识别并解析出主要内容

举个例子，我想识别div#post-4438372351887392855，它包含标题和文章

我知道没有什么是完美的，也没有什么能在100%的时间里工作，但有没有一种方法可以在合理的情况下给我理想的结果

我现在的想法是迭代每个div，去掉标记，然后找到最里面的div，其中包含的文本最多

在这一点上，我只是刚刚开始，所以我可以把一个概念的方法输入寻找。或者，如果有什么东西在那里，一个开源库会很好

提前感谢您提供的见解。

arc90的一些员工在这方面做得非常出色。它似乎很好地找到了“主要”内容——在您列出的页面上效果很好。

您可以查看他们评论良好的javascript（在bookmarklet中链接到），但您可能希望联系开发人员，征求他们的想法和使用许可。

主要内容提取资源的最完整编译列表是：

还可以查看评论，因为这里有额外的提示