Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/tfs/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web scraping 如何用Pentaho解析HTML文件?_Web Scraping_Jsoup_Pentaho - Fatal编程技术网

Web scraping 如何用Pentaho解析HTML文件?

Web scraping 如何用Pentaho解析HTML文件?,web-scraping,jsoup,pentaho,Web Scraping,Jsoup,Pentaho,我有一个html文件,我想用一些高级css选择器解析html 我怎样才能做到这一点呢?Pentaho并没有为您提供一种原生的方法来实现这一点,互联网上的大多数答案都会引导您使用正则表达式,这是可以的,但有时您需要更高级的东西 在该场景中,您可以使用步骤您可以将java代码与javascript混合使用。 在下面的示例中,我使用了library,只需下载jsoup-x.x.x.jar,并放入Pentaho的data integration\lib文件夹重新启动它。 接下来,您将使用以下示例代码添加

我有一个html文件,我想用一些高级css选择器解析html


我怎样才能做到这一点呢?

Pentaho并没有为您提供一种原生的方法来实现这一点,互联网上的大多数答案都会引导您使用正则表达式,这是可以的,但有时您需要更高级的东西

在该场景中,您可以使用步骤您可以将java代码与javascript混合使用。

在下面的示例中,我使用了library,只需下载
jsoup-x.x.x.jar
,并放入Pentaho的
data integration\lib
文件夹重新启动它。

接下来,您将使用以下示例代码添加一个
修改的Java脚本值

doc = org.jsoup.Jsoup.parse(myHTMLString);
myTextOfNodeWithAdvancedSelect = doc.select("body > table:nth-child(3) ").text();
其中,
myHTMLString
是您想要解析的字符串(可以通过
HTTP客户端
步骤或其他方式获得)

不要忘记在
字段表中添加同名的变量,并按如下所示的方式设置变量类型