Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/349.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
从HTML页面提取文本块的Java库_Java_Html_Text_Information Extraction - Fatal编程技术网

从HTML页面提取文本块的Java库

从HTML页面提取文本块的Java库,java,html,text,information-extraction,Java,Html,Text,Information Extraction,我想从HTML页面中提取文本块,我正在使用boilerpipe来实现这一点。对于一个页面中的一个文本,它可以正常工作,但有些页面(如博客)中有多个文本 我想提取所有文本,但要将每个文本识别为单独的文本,而不仅仅是一个文本 有一些图书馆可以做到这一点吗 编辑:我正在使用Jsoup解析HTML,但我不想进行解析,而是像boilerpipe一样在页面中进行信息提取。我想测试其他类似的工具。嗯,我个人喜欢与一起使用。基本上,Doj引入了一些类似于Java的CSS选择器的东西 示例(来自官方页面): 您可

我想从HTML页面中提取文本块,我正在使用boilerpipe来实现这一点。对于一个页面中的一个文本,它可以正常工作,但有些页面(如博客)中有多个文本

我想提取所有文本,但要将每个文本识别为单独的文本,而不仅仅是一个文本

有一些图书馆可以做到这一点吗


编辑:我正在使用Jsoup解析HTML,但我不想进行解析,而是像boilerpipe一样在页面中进行信息提取。我想测试其他类似的工具。

嗯,我个人喜欢与一起使用。基本上,Doj引入了一些类似于Java的CSS选择器的东西

示例(来自官方页面):


您可以在链接页面上看到更复杂的示例(向下滚动)。

我个人喜欢与一起使用。基本上,Doj引入了一些类似于Java的CSS选择器的东西

示例(来自官方页面):


您可以在链接页面(向下滚动)上看到更复杂的示例。

是非常广泛地用于此类任务的解析器。请检查。

是非常广泛地用于此类任务的解析器。请检查。

我所知道的最近的Java库是Road Runner项目: 它是一个可以在HTML文档中的标记上构造一种特殊类型的正则表达式的系统,在许多情况下,它可以检测基于同一模板的多个文档中的这种模式。例如,博客可以通过查看分页页面来实现这一点。您可能仍然需要准确地找出每个站点感兴趣的重复模式


对于博客,我可能会在博客的标题中查找提要链接,并使用提要解析库来解析每篇文章的永久链接。抓取这些内容并使用样板文件(这是必要的,因为许多博客在RSS/Atom提要中不包含全文)。很多博客的主页上也没有全文,因此我将重点介绍识别永久链接的方法,并从那里开始。

我所知道的最近的Java库是Road Runner项目: 它是一个可以在HTML文档中的标记上构造一种特殊类型的正则表达式的系统,在许多情况下,它可以检测基于同一模板的多个文档中的这种模式。例如,博客可以通过查看分页页面来实现这一点。您可能仍然需要准确地找出每个站点感兴趣的重复模式


对于博客,我可能会在博客的标题中查找提要链接,并使用提要解析库来解析每篇文章的永久链接。抓取这些内容并使用样板文件(这是必要的,因为许多博客在RSS/Atom提要中不包含全文)。很多博客的主页上也没有全文,因此我将重点介绍识别永久链接的方法,并从那里开始。

请提供更多详细信息,您使用的是什么提取器?你试过使用ArticleExtractor吗?我尝试使用ArticleExtractor获取stackoverflow post的内容,它为我提取了所有文本?如果您提供一些示例代码,我们最好进行调试。@rao_555将所有文本作为一个文本或多个文本?请提供更多详细信息,您使用的是什么提取器?你试过使用ArticleExtractor吗?我尝试使用ArticleExtractor获取stackoverflow post的内容,它为我提取了所有文本?如果您提供一些示例代码,我们最好进行调试。@rao_555是否将所有文本作为一个文本或多个文本?
Doj spanDoj = Doj.on(page).get("#updates tr", 1).get("td", 2).get("span.item");