使用PHP的文本解析器，如Instapaper_Php_Parsing_Text

使用PHP的文本解析器，如Instapaper

php parsing text

使用PHP的文本解析器，如Instapaper,php,parsing,text,Php,Parsing,Text,我正试图用PHP编写一个文本解析器，就像Instapaper那样。我想做的是；获取网页并以纯文本模式解析它获取带有cURL和strip HTML标记的网页很简单。但每个网页都有一些共同的领域；像页眉，导航，侧边栏，页脚，横幅等，我只想得到文本模式的文章，并排除所有其他部分。如果我知道id或类信息，排除这些部分也很简单。但我正在尝试自动化这个过程，并申请任何页面，如Instapaper 我得到了所有之间的内容，但我不知道如何排除页眉、边栏或页脚，而只得到文章的主体。我必须制定一个逻辑，以便只获得

我正试图用PHP编写一个文本解析器，就像Instapaper那样。我想做的是；获取网页并以纯文本模式解析它

获取带有cURL和strip HTML标记的网页很简单。但每个网页都有一些共同的领域；像页眉，导航，侧边栏，页脚，横幅等，我只想得到文本模式的文章，并排除所有其他部分。如果我知道id或类信息，排除这些部分也很简单。但我正在尝试自动化这个过程，并申请任何页面，如Instapaper

我得到了所有之间的内容，但我不知道如何排除页眉、边栏或页脚，而只得到文章的主体。我必须制定一个逻辑，以便只获得文章的主要部分

找到准确的密码对我来说并不重要。了解如何排除不必要的部分也很有用，因为我可以尝试用PHP编写自己的代码。如果有其他语言的例子，也会很有用

谢谢你的帮助。< P > >你真的应该考虑用A来解决这个问题。收集相似的页面并比较DOM树以找到不同的节点。

，您确实应该考虑使用A。收集相似的页面并比较DOM树以找到不同的节点。

您可以尝试查看此bookmarklet背后的算法，-它在所有网页垃圾中提取内容的成功率相当高

我的一个朋友做的，这就是我推荐它的原因——因为我知道它是有效的，而且我知道他正在使用许多技术来解析数据。你可以根据自己的要求应用这些技术。

你可以尝试看看这个书签背后的算法，-它在所有网页垃圾中提取内容的成功率相当高

我的一个朋友做的，这就是我推荐它的原因——因为我知道它是有效的，而且我知道他正在使用许多技术来解析数据。您可以根据自己的要求应用这些技术。

您可以从Goose查看源代码->它已经完成了许多类似instapaper的文本提取

您可以从Goose查看源代码->它已经做了很多类似instapaper的文本提取

看一看来自Shuyo Nakatani的ExtractContent代码

请参阅原始Ruby源代码或它到Perl的一个端口查看Shuyo Nakatani的ExtractContent代码

请参阅原始Ruby源代码或其到Perl的端口，这提供了不同方法的比较。java库的评价很高。在boilerpipe网站上，你可以找到他的科学论文，与其他算法进行比较

并非所有算法都适用于所有目的。这些工具最大的应用就是将原始文本作为搜索引擎索引。这个想法是，你不希望搜索结果被广告弄乱。这种提取可能具有破坏性；这意味着它不会给你最好的阅读区域，而这正是人们想要的instapaper或可读性

这提供了不同方法的比较。java库的评价很高。在boilerpipe网站上，你可以找到他的科学论文，与其他算法进行比较

看起来它工作得很好，完全符合我的要求。现在我要解决算法。谢谢你，斯凯先生，看起来它工作得很好，完全符合我的要求。现在我要解决算法。谢谢sk先生