使用PHP的文本解析器,如Instapaper

使用PHP的文本解析器,如Instapaper,php,parsing,text,Php,Parsing,Text,我正试图用PHP编写一个文本解析器,就像Instapaper那样。我想做的是;获取网页并以纯文本模式解析它 获取带有cURL和strip HTML标记的网页很简单。但每个网页都有一些共同的领域;像页眉,导航,侧边栏,页脚,横幅等,我只想得到文本模式的文章,并排除所有其他部分。如果我知道id或类信息,排除这些部分也很简单。但我正在尝试自动化这个过程,并申请任何页面,如Instapaper 我得到了所有之间的内容,但我不知道如何排除页眉、边栏或页脚,而只得到文章的主体。我必须制定一个逻辑,以便只获得

我正试图用PHP编写一个文本解析器,就像Instapaper那样。我想做的是;获取网页并以纯文本模式解析它

获取带有cURL和strip HTML标记的网页很简单。但每个网页都有一些共同的领域;像页眉,导航,侧边栏,页脚,横幅等,我只想得到文本模式的文章,并排除所有其他部分。如果我知道id或类信息,排除这些部分也很简单。但我正在尝试自动化这个过程,并申请任何页面,如Instapaper

我得到了所有之间的内容,但我不知道如何排除页眉、边栏或页脚,而只得到文章的主体。我必须制定一个逻辑,以便只获得文章的主要部分

找到准确的密码对我来说并不重要。了解如何排除不必要的部分也很有用,因为我可以尝试用PHP编写自己的代码。如果有其他语言的例子,也会很有用


谢谢你的帮助。< P > >你真的应该考虑用A来解决这个问题。收集相似的页面并比较DOM树以找到不同的节点。

,您确实应该考虑使用A。收集相似的页面并比较DOM树以找到不同的节点。

您可以尝试查看此bookmarklet背后的算法,-它在所有网页垃圾中提取内容的成功率相当高


我的一个朋友做的,这就是我推荐它的原因——因为我知道它是有效的,而且我知道他正在使用许多技术来解析数据。你可以根据自己的要求应用这些技术。

你可以尝试看看这个书签背后的算法,-它在所有网页垃圾中提取内容的成功率相当高


我的一个朋友做的,这就是我推荐它的原因——因为我知道它是有效的,而且我知道他正在使用许多技术来解析数据。您可以根据自己的要求应用这些技术。

您可以从Goose查看源代码->它已经完成了许多类似instapaper的文本提取


您可以从Goose查看源代码->它已经做了很多类似instapaper的文本提取


看一看来自Shuyo Nakatani的ExtractContent代码


请参阅原始Ruby源代码或它到Perl的一个端口查看Shuyo Nakatani的ExtractContent代码

请参阅原始Ruby源代码或其到Perl的端口,这提供了不同方法的比较。java库的评价很高。在boilerpipe网站上,你可以找到他的科学论文,与其他算法进行比较

并非所有算法都适用于所有目的。这些工具最大的应用就是将原始文本作为搜索引擎索引。这个想法是,你不希望搜索结果被广告弄乱。这种提取可能具有破坏性;这意味着它不会给你最好的阅读区域,而这正是人们想要的instapaper或可读性

这提供了不同方法的比较。java库的评价很高。在boilerpipe网站上,你可以找到他的科学论文,与其他算法进行比较


并非所有算法都适用于所有目的。这些工具最大的应用就是将原始文本作为搜索引擎索引。这个想法是,你不希望搜索结果被广告弄乱。这种提取可能具有破坏性;这意味着它不会给你最好的阅读区域,而这正是人们想要的instapaper或可读性

看起来它工作得很好,完全符合我的要求。现在我要解决算法。谢谢你,斯凯先生,看起来它工作得很好,完全符合我的要求。现在我要解决算法。谢谢sk先生