Algorithm 从网站中提取正文文本,例如仅提取文章标题和文本,而不是网站中的所有文本

Algorithm 从网站中提取正文文本,例如仅提取文章标题和文本,而不是网站中的所有文本,algorithm,text,web-scraping,text-extraction,Algorithm,Text,Web Scraping,Text Extraction,我正在寻找允许从网站中提取文本的算法。我的意思不是“剥离html”,也不是数百个库中的任何一个 例如,对于一篇新闻文章,我想确定标题和所有文本,但不是评论部分等等 有什么算法吗?谢谢大家! 您试图做的是所谓的“内容提取”。事实证明,这是一个很难很好地解决的问题,而许多幼稚的解决方案做得很糟糕 两者都必须解决这个问题,你可以从他们的解决方案中学到一些东西。它们还都提供您可以利用的服务——也许您可以将您的问题外包给他们,让他们的API来解决。:) 否则,搜索“”将返回大量有用的结果,包括有关该主题的

我正在寻找允许从网站中提取文本的算法。我的意思不是“剥离html”,也不是数百个库中的任何一个

例如,对于一篇新闻文章,我想确定标题和所有文本,但不是评论部分等等


有什么算法吗?谢谢大家!

您试图做的是所谓的“内容提取”。事实证明,这是一个很难很好地解决的问题,而许多幼稚的解决方案做得很糟糕

两者都必须解决这个问题,你可以从他们的解决方案中学到一些东西。它们还都提供您可以利用的服务——也许您可以将您的问题外包给他们,让他们的API来解决。:)


否则,搜索“”将返回大量有用的结果,包括有关该主题的大量论文。

在计算机科学文献中,此问题通常称为页面分割或锅炉板检测问题。见报告及其相关文章。此外,我有一些报告和软件网站来解决这个问题。另外,请参阅stackoverflow问题。

有一些开源工具可用于执行类似的文章提取任务。 这是Gravity.com的开源软件

它包含wiki上的信息以及您可以查看的源。有几十个单元测试显示从各种文章中提取的文本。

内容提取是一个非常困难的主题。没有通用的标准来识别“主要文章”内容(例如,有几种方法可以让爬虫更容易阅读HTML,但没有一种方法被广泛使用)

所以事实证明,如果你想要好的结果,最好为你想要抓取的每个(新闻)网站定义你自己的选择器。虽然有一些用于HTML内容提取的API,但正如我所说的,很难开发出适用于每个站点的算法

您可以使用的一些API:






我认为你最好的办法是研究你能从元数据中获得什么信息,并编写一个好的html解析器,oEmbed可能是一个好的标准=)


我想你要找的短语是“网络抓取”,Thanx…帮了大忙!