Web scraping 如何用Pentaho解析HTML文件?
我有一个html文件,我想用一些高级css选择器解析htmlWeb scraping 如何用Pentaho解析HTML文件?,web-scraping,jsoup,pentaho,Web Scraping,Jsoup,Pentaho,我有一个html文件,我想用一些高级css选择器解析html 我怎样才能做到这一点呢?Pentaho并没有为您提供一种原生的方法来实现这一点,互联网上的大多数答案都会引导您使用正则表达式,这是可以的,但有时您需要更高级的东西 在该场景中,您可以使用步骤您可以将java代码与javascript混合使用。 在下面的示例中,我使用了library,只需下载jsoup-x.x.x.jar,并放入Pentaho的data integration\lib文件夹重新启动它。 接下来,您将使用以下示例代码添加
我怎样才能做到这一点呢?Pentaho并没有为您提供一种原生的方法来实现这一点,互联网上的大多数答案都会引导您使用正则表达式,这是可以的,但有时您需要更高级的东西 在该场景中,您可以使用步骤您可以将java代码与javascript混合使用。 在下面的示例中,我使用了library,只需下载
jsoup-x.x.x.jar
,并放入Pentaho的data integration\lib
文件夹重新启动它。
接下来,您将使用以下示例代码添加一个修改的Java脚本值:
doc = org.jsoup.Jsoup.parse(myHTMLString);
myTextOfNodeWithAdvancedSelect = doc.select("body > table:nth-child(3) ").text();
其中,myHTMLString
是您想要解析的字符串(可以通过HTTP客户端
步骤或其他方式获得)
不要忘记在字段表中添加同名的变量,并按如下所示的方式设置变量类型