Web crawler 使用crawler4j。如何保存网站数据？_Web Crawler

Web crawler 使用crawler4j。如何保存网站数据？

web-crawler

Web crawler 使用crawler4j。如何保存网站数据？,web-crawler,Web Crawler,我已经开始使用crawler4j，它似乎在查找没有问题的网站。但是，我需要保存已爬网的数据。crawler4j是否支持此功能我尝试过使用高级java源代码（和Downloader.java），但它似乎不起作用具体来说，下面的代码从不打印任何内容 Downloader myDownloader = new Downloader(); Page page = myDownloader.download("http://ics.uci.edu"); if (page !=

我已经开始使用crawler4j，它似乎在查找没有问题的网站。但是，我需要保存已爬网的数据。crawler4j是否支持此功能

我尝试过使用高级java源代码（和Downloader.java），但它似乎不起作用

具体来说，下面的代码从不打印任何内容

    Downloader myDownloader = new Downloader();
    Page page = myDownloader.download("http://ics.uci.edu");

    if (page != null) {
        System.out.println(page.getText());
    }

我希望能在这方面提供一些意见

谢谢

您在其他页面上尝试过吗？事实上，您正在使用的url缺少一个“www”。正确的方法是

如果您正在运行自己的爬虫程序来扩展WebCrawler类，那么您可以访问在Visit（page）方法中爬虫的页面的详细信息。例如，以下内容将为您提供页面内容：

String content = new String(page.getContentData(), page.getContentCharset());

从那里，您可以将其保存到磁盘或应用所需的任何处理