Java 使用内联CSS提取HTML文章文本
我想从已爬网的html网页中提取文本。我正在使用优秀的开源库来实现这一点。然而,使用Boilerpipe,我只能得到原始文本。除了原始文本之外,我还需要捕获包含原始源格式信息的文本,并内联所有css样式信息Java 使用内联CSS提取HTML文章文本,java,extraction,boilerpipe,Java,Extraction,Boilerpipe,我想从已爬网的html网页中提取文本。我正在使用优秀的开源库来实现这一点。然而,使用Boilerpipe,我只能得到原始文本。除了原始文本之外,我还需要捕获包含原始源格式信息的文本,并内联所有css样式信息 对于Boilerpipe或任何其他java库,最好是开源的,有什么方法可以做到这一点吗?首先,我应该说我从未使用过Boilerpipe。。。甚至直到现在才听说过 但是看看这个网站和javadocs,我想说你不能用它来提取带有样式的文本。基本的概念问题是如何表现这种风格。例如,该接口有4个ge
对于Boilerpipe或任何其他java库,最好是开源的,有什么方法可以做到这一点吗?首先,我应该说我从未使用过Boilerpipe。。。甚至直到现在才听说过 但是看看这个网站和javadocs,我想说你不能用它来提取带有样式的文本。基本的概念问题是如何表现这种风格。例如,该接口有4个
getText
方法,每个方法都以字符串形式返回提取的文本。如何在字符串中表示样式?你必须嵌入某种标记,但是
- 什么样的标记,以及
- 您如何将其与接口的描述相协调,即方法返回“文本”。。。不是“带标记的文本”
因此,我的评估是,使用Boilerpipe提取带有样式的文本是完全不可能的。因此,请使用您已经确定的其他备选方案。我应该首先说,我从未使用过锅炉管。。。甚至直到现在才听说过 但是看看这个网站和javadocs,我想说你不能用它来提取带有样式的文本。基本的概念问题是如何表现这种风格。例如,该接口有4个
getText
方法,每个方法都以字符串形式返回提取的文本。如何在字符串中表示样式?你必须嵌入某种标记,但是
- 什么样的标记,以及
- 您如何将其与接口的描述相协调,即方法返回“文本”。。。不是“带标记的文本”
因此,我的评估是,使用Boilerpipe提取带有样式的文本是完全不可能的。因此,请使用您已经确定的其他备选方案。降级原因?当然,我在谷歌上搜索过信息。遇到jericho html解析器,它似乎能够内联所有CSS。然而,我还是想坚持做样板戏。即使是关于如何开发具有此功能的新提取器的指针也会有所帮助。:)降级原因?当然,我在谷歌上搜索过信息。遇到jericho html解析器,它似乎能够内联所有CSS。然而,我还是想坚持做样板戏。即使是关于如何开发具有此功能的新提取器的指针也会有所帮助。:)