Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/309.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用内联CSS提取HTML文章文本_Java_Extraction_Boilerpipe - Fatal编程技术网

Java 使用内联CSS提取HTML文章文本

Java 使用内联CSS提取HTML文章文本,java,extraction,boilerpipe,Java,Extraction,Boilerpipe,我想从已爬网的html网页中提取文本。我正在使用优秀的开源库来实现这一点。然而,使用Boilerpipe,我只能得到原始文本。除了原始文本之外,我还需要捕获包含原始源格式信息的文本,并内联所有css样式信息 对于Boilerpipe或任何其他java库,最好是开源的,有什么方法可以做到这一点吗?首先,我应该说我从未使用过Boilerpipe。。。甚至直到现在才听说过 但是看看这个网站和javadocs,我想说你不能用它来提取带有样式的文本。基本的概念问题是如何表现这种风格。例如,该接口有4个ge

我想从已爬网的html网页中提取文本。我正在使用优秀的开源库来实现这一点。然而,使用Boilerpipe,我只能得到原始文本。除了原始文本之外,我还需要捕获包含原始源格式信息的文本,并内联所有css样式信息


对于Boilerpipe或任何其他java库,最好是开源的,有什么方法可以做到这一点吗?

首先,我应该说我从未使用过Boilerpipe。。。甚至直到现在才听说过

但是看看这个网站和javadocs,我想说你不能用它来提取带有样式的文本。基本的概念问题是如何表现这种风格。例如,该接口有4个
getText
方法,每个方法都以字符串形式返回提取的文本。如何在字符串中表示样式?你必须嵌入某种标记,但是

  • 什么样的标记,以及
  • 您如何将其与接口的描述相协调,即方法返回“文本”。。。不是“带标记的文本”

因此,我的评估是,使用Boilerpipe提取带有样式的文本是完全不可能的。因此,请使用您已经确定的其他备选方案。

我应该首先说,我从未使用过锅炉管。。。甚至直到现在才听说过

但是看看这个网站和javadocs,我想说你不能用它来提取带有样式的文本。基本的概念问题是如何表现这种风格。例如,该接口有4个
getText
方法,每个方法都以字符串形式返回提取的文本。如何在字符串中表示样式?你必须嵌入某种标记,但是

  • 什么样的标记,以及
  • 您如何将其与接口的描述相协调,即方法返回“文本”。。。不是“带标记的文本”

因此,我的评估是,使用Boilerpipe提取带有样式的文本是完全不可能的。因此,请使用您已经确定的其他备选方案。

降级原因?当然,我在谷歌上搜索过信息。遇到jericho html解析器,它似乎能够内联所有CSS。然而,我还是想坚持做样板戏。即使是关于如何开发具有此功能的新提取器的指针也会有所帮助。:)降级原因?当然,我在谷歌上搜索过信息。遇到jericho html解析器,它似乎能够内联所有CSS。然而,我还是想坚持做样板戏。即使是关于如何开发具有此功能的新提取器的指针也会有所帮助。:)