Java 用HtmlUnit抓取谷歌群组页面
我已经写了上面的代码,用于在没有任何运气的情况下删除上面URL给出的google group页面。我得到的是空的div和span元素。我在其他URL上也试过,效果不错,但在谷歌群组页面上似乎不起作用。而且,即使是不想要的输出,也需要很长的时间。需要帮助。如下图所示实例化webclient,它对我有效:Java 用HtmlUnit抓取谷歌群组页面,java,ajax,web-scraping,htmlunit,google-groups,Java,Ajax,Web Scraping,Htmlunit,Google Groups,我已经写了上面的代码,用于在没有任何运气的情况下删除上面URL给出的google group页面。我得到的是空的div和span元素。我在其他URL上也试过,效果不错,但在谷歌群组页面上似乎不起作用。而且,即使是不想要的输出,也需要很长的时间。需要帮助。如下图所示实例化webclient,它对我有效: public static void main(String[] args) throws IOException, InterruptedException { WebC
public static void main(String[] args) throws IOException, InterruptedException
{
WebClient webClient = new WebClient();
WebRequest request = new WebRequest(new URL("https://groups.google.com/forum/?fromgroups#!forum/mobile-social-networking-nepal"));
HtmlPage page = webClient.getPage(request);
webClient.waitForBackgroundJavaScript(1000000);
System.out.println(page.asXml());
webClient.closeAllWindows();
}
如果他们使用富web客户端,并且页面的初始呈现基本上是空白的,使用AJAX调用填充所有数据,我也不会感到惊讶。
WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);