从HTML页面提取文本块的Java库_Java_Html_Text_Information Extraction

从HTML页面提取文本块的Java库

java html text

从HTML页面提取文本块的Java库,java,html,text,information-extraction,Java,Html,Text,Information Extraction,我想从HTML页面中提取文本块，我正在使用boilerpipe来实现这一点。对于一个页面中的一个文本，它可以正常工作，但有些页面（如博客）中有多个文本我想提取所有文本，但要将每个文本识别为单独的文本，而不仅仅是一个文本有一些图书馆可以做到这一点吗编辑：我正在使用Jsoup解析HTML，但我不想进行解析，而是像boilerpipe一样在页面中进行信息提取。我想测试其他类似的工具。嗯，我个人喜欢与一起使用。基本上，Doj引入了一些类似于Java的CSS选择器的东西示例（来自官方页面）：您可

我想从HTML页面中提取文本块，我正在使用boilerpipe来实现这一点。对于一个页面中的一个文本，它可以正常工作，但有些页面（如博客）中有多个文本

我想提取所有文本，但要将每个文本识别为单独的文本，而不仅仅是一个文本

有一些图书馆可以做到这一点吗

编辑：我正在使用Jsoup解析HTML，但我不想进行解析，而是像boilerpipe一样在页面中进行信息提取。我想测试其他类似的工具。

嗯，我个人喜欢与一起使用。基本上，Doj引入了一些类似于Java的CSS选择器的东西

示例（来自官方页面）：

您可以在链接页面上看到更复杂的示例（向下滚动）。

我个人喜欢与一起使用。基本上，Doj引入了一些类似于Java的CSS选择器的东西

示例（来自官方页面）：

您可以在链接页面（向下滚动）上看到更复杂的示例。

是非常广泛地用于此类任务的解析器。请检查。

我所知道的最近的Java库是Road Runner项目：它是一个可以在HTML文档中的标记上构造一种特殊类型的正则表达式的系统，在许多情况下，它可以检测基于同一模板的多个文档中的这种模式。例如，博客可以通过查看分页页面来实现这一点。您可能仍然需要准确地找出每个站点感兴趣的重复模式

对于博客，我可能会在博客的标题中查找提要链接，并使用提要解析库来解析每篇文章的永久链接。抓取这些内容并使用样板文件（这是必要的，因为许多博客在RSS/Atom提要中不包含全文）。很多博客的主页上也没有全文，因此我将重点介绍识别永久链接的方法，并从那里开始。

请提供更多详细信息，您使用的是什么提取器？你试过使用ArticleExtractor吗？我尝试使用ArticleExtractor获取stackoverflow post的内容，它为我提取了所有文本？如果您提供一些示例代码，我们最好进行调试。@rao_555将所有文本作为一个文本或多个文本？请提供更多详细信息，您使用的是什么提取器？你试过使用ArticleExtractor吗？我尝试使用ArticleExtractor获取stackoverflow post的内容，它为我提取了所有文本？如果您提供一些示例代码，我们最好进行调试。@rao_555是否将所有文本作为一个文本或多个文本？

Doj spanDoj = Doj.on(page).get("#updates tr", 1).get("td", 2).get("span.item");