Algorithm 从网站中提取正文文本，例如仅提取文章标题和文本，而不是网站中的所有文本_Algorithm_Text_Web Scraping_Text Extraction

Algorithm 从网站中提取正文文本，例如仅提取文章标题和文本，而不是网站中的所有文本

algorithm text web-scraping

Algorithm 从网站中提取正文文本，例如仅提取文章标题和文本，而不是网站中的所有文本,algorithm,text,web-scraping,text-extraction,Algorithm,Text,Web Scraping,Text Extraction,我正在寻找允许从网站中提取文本的算法。我的意思不是“剥离html”，也不是数百个库中的任何一个例如，对于一篇新闻文章，我想确定标题和所有文本，但不是评论部分等等有什么算法吗？谢谢大家! 您试图做的是所谓的“内容提取”。事实证明，这是一个很难很好地解决的问题，而许多幼稚的解决方案做得很糟糕两者都必须解决这个问题，你可以从他们的解决方案中学到一些东西。它们还都提供您可以利用的服务——也许您可以将您的问题外包给他们，让他们的API来解决。：）否则，搜索“”将返回大量有用的结果，包括有关该主题的

我正在寻找允许从网站中提取文本的算法。我的意思不是“剥离html”，也不是数百个库中的任何一个

例如，对于一篇新闻文章，我想确定标题和所有文本，但不是评论部分等等

有什么算法吗？谢谢大家!

您试图做的是所谓的“内容提取”。事实证明，这是一个很难很好地解决的问题，而许多幼稚的解决方案做得很糟糕

两者都必须解决这个问题，你可以从他们的解决方案中学到一些东西。它们还都提供您可以利用的服务——也许您可以将您的问题外包给他们，让他们的API来解决。：）

否则，搜索“”将返回大量有用的结果，包括有关该主题的大量论文。

在计算机科学文献中，此问题通常称为页面分割或锅炉板检测问题。见报告及其相关文章。此外，我有一些报告和软件网站来解决这个问题。另外，请参阅stackoverflow问题。

有一些开源工具可用于执行类似的文章提取任务。这是Gravity.com的开源软件

它包含wiki上的信息以及您可以查看的源。有几十个单元测试显示从各种文章中提取的文本。

内容提取是一个非常困难的主题。没有通用的标准来识别“主要文章”内容（例如，有几种方法可以让爬虫更容易阅读HTML，但没有一种方法被广泛使用）

所以事实证明，如果你想要好的结果，最好为你想要抓取的每个（新闻）网站定义你自己的选择器。虽然有一些用于HTML内容提取的API，但正如我所说的，很难开发出适用于每个站点的算法

您可以使用的一些API：

我认为你最好的办法是研究你能从元数据中获得什么信息，并编写一个好的html解析器，oEmbed可能是一个好的标准=）

我想你要找的短语是“网络抓取”，Thanx…帮了大忙！