从HTML页面提取文本块的Java库
我想从HTML页面中提取文本块,我正在使用boilerpipe来实现这一点。对于一个页面中的一个文本,它可以正常工作,但有些页面(如博客)中有多个文本 我想提取所有文本,但要将每个文本识别为单独的文本,而不仅仅是一个文本 有一些图书馆可以做到这一点吗从HTML页面提取文本块的Java库,java,html,text,information-extraction,Java,Html,Text,Information Extraction,我想从HTML页面中提取文本块,我正在使用boilerpipe来实现这一点。对于一个页面中的一个文本,它可以正常工作,但有些页面(如博客)中有多个文本 我想提取所有文本,但要将每个文本识别为单独的文本,而不仅仅是一个文本 有一些图书馆可以做到这一点吗 编辑:我正在使用Jsoup解析HTML,但我不想进行解析,而是像boilerpipe一样在页面中进行信息提取。我想测试其他类似的工具。嗯,我个人喜欢与一起使用。基本上,Doj引入了一些类似于Java的CSS选择器的东西 示例(来自官方页面): 您可
编辑:我正在使用Jsoup解析HTML,但我不想进行解析,而是像boilerpipe一样在页面中进行信息提取。我想测试其他类似的工具。嗯,我个人喜欢与一起使用。基本上,Doj引入了一些类似于Java的CSS选择器的东西 示例(来自官方页面):
您可以在链接页面上看到更复杂的示例(向下滚动)。我个人喜欢与一起使用。基本上,Doj引入了一些类似于Java的CSS选择器的东西 示例(来自官方页面):
您可以在链接页面(向下滚动)上看到更复杂的示例。是非常广泛地用于此类任务的解析器。请检查。是非常广泛地用于此类任务的解析器。请检查。我所知道的最近的Java库是Road Runner项目: 它是一个可以在HTML文档中的标记上构造一种特殊类型的正则表达式的系统,在许多情况下,它可以检测基于同一模板的多个文档中的这种模式。例如,博客可以通过查看分页页面来实现这一点。您可能仍然需要准确地找出每个站点感兴趣的重复模式
对于博客,我可能会在博客的标题中查找提要链接,并使用提要解析库来解析每篇文章的永久链接。抓取这些内容并使用样板文件(这是必要的,因为许多博客在RSS/Atom提要中不包含全文)。很多博客的主页上也没有全文,因此我将重点介绍识别永久链接的方法,并从那里开始。我所知道的最近的Java库是Road Runner项目: 它是一个可以在HTML文档中的标记上构造一种特殊类型的正则表达式的系统,在许多情况下,它可以检测基于同一模板的多个文档中的这种模式。例如,博客可以通过查看分页页面来实现这一点。您可能仍然需要准确地找出每个站点感兴趣的重复模式
对于博客,我可能会在博客的标题中查找提要链接,并使用提要解析库来解析每篇文章的永久链接。抓取这些内容并使用样板文件(这是必要的,因为许多博客在RSS/Atom提要中不包含全文)。很多博客的主页上也没有全文,因此我将重点介绍识别永久链接的方法,并从那里开始。请提供更多详细信息,您使用的是什么提取器?你试过使用ArticleExtractor吗?我尝试使用ArticleExtractor获取stackoverflow post的内容,它为我提取了所有文本?如果您提供一些示例代码,我们最好进行调试。@rao_555将所有文本作为一个文本或多个文本?请提供更多详细信息,您使用的是什么提取器?你试过使用ArticleExtractor吗?我尝试使用ArticleExtractor获取stackoverflow post的内容,它为我提取了所有文本?如果您提供一些示例代码,我们最好进行调试。@rao_555是否将所有文本作为一个文本或多个文本?
Doj spanDoj = Doj.on(page).get("#updates tr", 1).get("td", 2).get("span.item");