.net 如何从NBoilerPipe获取HTML输出?

.net 如何从NBoilerPipe获取HTML输出?,.net,html,mono,boilerpipe,.net,Html,Mono,Boilerpipe,NBoilerPipe是BoilerPipe Java库的一个单端口。我已经设法在.NET4中实现了这一点,没有太多麻烦,需要修复一些库引用/等等。但是,在代码中搜索,我找不到任何HTML输出的“钩子”。例如,GetText方法只有一个输入参数,我看不到任何其他方法。如何从NBoilerPipe获取HTML输出 以下是在.NET4中工作的NBoilerPipe代码示例: 我也有同样的问题。我用下面的方法解决了这个问题 我知道这是一个老问题,但我对.Net不太熟悉 对我来说,它看起来像Java,而

NBoilerPipe是BoilerPipe Java库的一个单端口。我已经设法在.NET4中实现了这一点,没有太多麻烦,需要修复一些库引用/等等。但是,在代码中搜索,我找不到任何HTML输出的“钩子”。例如,GetText方法只有一个输入参数,我看不到任何其他方法。如何从NBoilerPipe获取HTML输出

以下是在.NET4中工作的NBoilerPipe代码示例:


我也有同样的问题。我用下面的方法解决了这个问题


我知道这是一个老问题,但我对.Net不太熟悉 对我来说,它看起来像Java,而且我也不是一个专业的程序员 意思是,但我认为这可能会帮助其他人提出类似的问题

您正在使用的实例方法只返回文本。如果你 想要获得HTML,您需要创建一个BoilerpipeExtractor和一个 HTMLHighlighter。然后你可以用它的过程方法得到什么 你在找我

final BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR;
final HTMLHighlighter hh = HTMLHighlighter.newExtractingInstance();
.newExtractingInstance就是给你提供相关信息的那一种 HTML。另一个选项是.newHighlightingInstance,它高亮显示 但保留整个HTML文档的完整性

之后,您需要做的就是调用HTMLHighlighter的进程 方法:

流程也可以是processTextDocument文档,InputSource是或 processTextDocument文档,字符串origHTML

在中查看源代码。有便条 一切都在做什么。我找了Javadocs,但找不到 不再是他们了

找到一个几乎完全相同的演示
在同一份报告中。

NBoilerPipe的目的不是从html中提取文本吗?我不确定我是否理解您的意图。样板文件从页面中提取内容,过滤“样板文件”——如页眉、页脚、菜单、广告等。原始样板文件可以将内容作为HTML片段返回,或进一步过滤以生成文本。HTML片段很有用,因为它们包含p标记之类的东西。请注意,这是不鼓励的,因此答案应该是搜索解决方案的终点,而不是另一个参考的中途停留,随着时间的推移,这些参考往往会过时。请考虑在这里添加一个独立的概要,将链接作为参考。谢谢您的回复。上面的链接是指向Java库的免费请求受限web服务。仅适用于家庭实验imho。
final BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR;
final HTMLHighlighter hh = HTMLHighlighter.newExtractingInstance();
System.out.println(hh.process(url, extractor));