Openrefine无法获取accordion中的html代码
我知道openrefine并不是一个完美的网页抓取工具,但我希望从第一步就得到一些帮助 通过获取url()添加列时,我无法从openrefine收集完整的html代码。它们不包含手风琴下的任何代码,如服务、床类型等 有没有想过通过获取openrefine来获取完整的代码?Openrefine无法获取accordion中的html代码,html,web-scraping,openrefine,Html,Web Scraping,Openrefine,我知道openrefine并不是一个完美的网页抓取工具,但我希望从第一步就得到一些帮助 通过获取url()添加列时,我无法从openrefine收集完整的html代码。它们不包含手风琴下的任何代码,如服务、床类型等 有没有想过通过获取openrefine来获取完整的代码? 我试图在administrative下收集信息,其Xpath为“//div[4]/div/ul/li”(“div#AdministrativeBox.in.collapse”)此网站使用Javascript动态加载其内容。您感
我试图在administrative下收集信息,其Xpath为“//div[4]/div/ul/li”(“div#AdministrativeBox.in.collapse”)此网站使用Javascript动态加载其内容。您感兴趣的信息不会存储在页面的源代码中,因此Open Refine无法提取它 然而,有一个解决办法。如果您使用GREL公式
value.replace('view','tab\u overview')
转换URL,您将得到
请注意,OpenRefine不使用Xpath,而是使用。要获取“管理”块的元素,可以使用此GREL公式
forEach(value.parseHtml().select('#AdministrativeBox li'), e, e.htmlText()).join(',')
结果: