Java 用HtmlUnit抓取谷歌群组页面

Java 用HtmlUnit抓取谷歌群组页面,java,ajax,web-scraping,htmlunit,google-groups,Java,Ajax,Web Scraping,Htmlunit,Google Groups,我已经写了上面的代码,用于在没有任何运气的情况下删除上面URL给出的google group页面。我得到的是空的div和span元素。我在其他URL上也试过,效果不错,但在谷歌群组页面上似乎不起作用。而且,即使是不想要的输出,也需要很长的时间。需要帮助。如下图所示实例化webclient,它对我有效: public static void main(String[] args) throws IOException, InterruptedException { WebC

我已经写了上面的代码,用于在没有任何运气的情况下删除上面URL给出的google group页面。我得到的是空的div和span元素。我在其他URL上也试过,效果不错,但在谷歌群组页面上似乎不起作用。而且,即使是不想要的输出,也需要很长的时间。需要帮助。

如下图所示实例化webclient,它对我有效:

public static void main(String[] args) throws IOException, InterruptedException
    {
        WebClient webClient = new WebClient();

    WebRequest request = new WebRequest(new URL("https://groups.google.com/forum/?fromgroups#!forum/mobile-social-networking-nepal"));
    HtmlPage page = webClient.getPage(request);
    webClient.waitForBackgroundJavaScript(1000000);
    System.out.println(page.asXml());
    webClient.closeAllWindows();


    }

如果他们使用富web客户端,并且页面的初始呈现基本上是空白的,使用AJAX调用填充所有数据,我也不会感到惊讶。
WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);