Web crawler 使用crawler4j。如何保存网站数据?

Web crawler 使用crawler4j。如何保存网站数据?,web-crawler,Web Crawler,我已经开始使用crawler4j,它似乎在查找没有问题的网站。但是,我需要保存已爬网的数据。crawler4j是否支持此功能 我尝试过使用高级java源代码(和Downloader.java),但它似乎不起作用 具体来说,下面的代码从不打印任何内容 Downloader myDownloader = new Downloader(); Page page = myDownloader.download("http://ics.uci.edu"); if (page !=

我已经开始使用crawler4j,它似乎在查找没有问题的网站。但是,我需要保存已爬网的数据。crawler4j是否支持此功能

我尝试过使用高级java源代码(和Downloader.java),但它似乎不起作用

具体来说,下面的代码从不打印任何内容

    Downloader myDownloader = new Downloader();
    Page page = myDownloader.download("http://ics.uci.edu");

    if (page != null) {
        System.out.println(page.getText());
    }
我希望能在这方面提供一些意见


谢谢

您在其他页面上尝试过吗?事实上,您正在使用的url缺少一个“www”。正确的方法是

如果您正在运行自己的爬虫程序来扩展WebCrawler类,那么您可以访问在Visit(page)方法中爬虫的页面的详细信息。例如,以下内容将为您提供页面内容:

String content = new String(page.getContentData(), page.getContentCharset());
从那里,您可以将其保存到磁盘或应用所需的任何处理