.net 如何从NBoilerPipe获取HTML输出？_.net_Html_Mono_Boilerpipe

.net 如何从NBoilerPipe获取HTML输出？

.net html mono

.net 如何从NBoilerPipe获取HTML输出？,.net,html,mono,boilerpipe,.net,Html,Mono,Boilerpipe,NBoilerPipe是BoilerPipe Java库的一个单端口。我已经设法在.NET4中实现了这一点，没有太多麻烦，需要修复一些库引用/等等。但是，在代码中搜索，我找不到任何HTML输出的“钩子”。例如，GetText方法只有一个输入参数，我看不到任何其他方法。如何从NBoilerPipe获取HTML输出以下是在.NET4中工作的NBoilerPipe代码示例：我也有同样的问题。我用下面的方法解决了这个问题我知道这是一个老问题，但我对.Net不太熟悉对我来说，它看起来像Java，而

NBoilerPipe是BoilerPipe Java库的一个单端口。我已经设法在.NET4中实现了这一点，没有太多麻烦，需要修复一些库引用/等等。但是，在代码中搜索，我找不到任何HTML输出的“钩子”。例如，GetText方法只有一个输入参数，我看不到任何其他方法。如何从NBoilerPipe获取HTML输出

以下是在.NET4中工作的NBoilerPipe代码示例：

我也有同样的问题。我用下面的方法解决了这个问题

我知道这是一个老问题，但我对.Net不太熟悉对我来说，它看起来像Java，而且我也不是一个专业的程序员意思是，但我认为这可能会帮助其他人提出类似的问题

您正在使用的实例方法只返回文本。如果你想要获得HTML，您需要创建一个BoilerpipeExtractor和一个 HTMLHighlighter。然后你可以用它的过程方法得到什么你在找我

final BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR;
final HTMLHighlighter hh = HTMLHighlighter.newExtractingInstance();

.newExtractingInstance就是给你提供相关信息的那一种 HTML。另一个选项是.newHighlightingInstance，它高亮显示但保留整个HTML文档的完整性

之后，您需要做的就是调用HTMLHighlighter的进程方法：

流程也可以是processTextDocument文档，InputSource是或 processTextDocument文档，字符串origHTML

在中查看源代码。有便条一切都在做什么。我找了Javadocs，但找不到不再是他们了

找到一个几乎完全相同的演示

在同一份报告中。

NBoilerPipe的目的不是从html中提取文本吗？我不确定我是否理解您的意图。样板文件从页面中提取内容，过滤“样板文件”——如页眉、页脚、菜单、广告等。原始样板文件可以将内容作为HTML片段返回，或进一步过滤以生成文本。HTML片段很有用，因为它们包含p标记之类的东西。请注意，这是不鼓励的，因此答案应该是搜索解决方案的终点，而不是另一个参考的中途停留，随着时间的推移，这些参考往往会过时。请考虑在这里添加一个独立的概要，将链接作为参考。谢谢您的回复。上面的链接是指向Java库的免费请求受限web服务。仅适用于家庭实验imho。

final BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR;
final HTMLHighlighter hh = HTMLHighlighter.newExtractingInstance();

System.out.println(hh.process(url, extractor));