Web crawler 仅爬行动态数据_Web Crawler_Crawler4j

Web crawler 仅爬行动态数据

web-crawler

Web crawler 仅爬行动态数据,web-crawler,crawler4j,Web Crawler,Crawler4j,我正试图抓取一家当地报纸的档案，并得到了预期的结果。我是否有办法对爬虫程序进行编程，使每个页面上相同的静态按钮（如主页按钮及其页脚）不包括在爬虫程序中这是我用来显示爬网数据的代码 System.out.println(Jsoup.parse(html).body().text_mod()); 我认为有两种方法可以解决你的问题，一种是通用的，另一种是临时的 1通用要从网站获取内容，您可以使用工具（如）删除样板代码。这将导致由库提取文本。然而，你几乎无法控制锅炉管内发生的事情 2特设可以使用

我正试图抓取一家当地报纸的档案，并得到了预期的结果。我是否有办法对爬虫程序进行编程，使每个页面上相同的静态按钮（如主页按钮及其页脚）不包括在爬虫程序中

这是我用来显示爬网数据的代码

System.out.println(Jsoup.parse(html).body().text_mod());

我认为有两种方法可以解决你的问题，一种是通用的，另一种是临时的

1通用要从网站获取内容，您可以使用工具（如）删除样板代码。这将导致由库提取文本。然而，你几乎无法控制锅炉管内发生的事情

2特设可以使用Jsoup删除树中不需要的节点。为此，您将获得Jsoup处理的文档：

Document doc = Jsoup.parse(html):

然后使用Jsoup选择器获取要从页面中删除的节点。请参阅此处的文档：。选择节点后，使用Element类中的remove方法。

我看到两种解决方案，一种是通用的，另一种是特殊的

1通用要从网站获取内容，您可以使用工具（如）删除样板代码。这将导致由库提取文本。然而，你几乎无法控制锅炉管内发生的事情

2特设可以使用Jsoup删除树中不需要的节点。为此，您将获得Jsoup处理的文档：

Document doc = Jsoup.parse(html):

然后使用Jsoup选择器获取要从页面中删除的节点。请参阅此处的文档：。选择节点后，使用元素类中的remove方法。

shouldVisit方法如何？您可以根据URL模式添加条件，例如：

    @Override
public boolean shouldVisit(WebURL url) {
    String href = url.getURL().toLowerCase();
    return (!href.contains("static/button/url/"));
}

这对我很有用。

shouldVisite方法怎么样？您可以根据URL模式添加条件，例如：

    @Override
public boolean shouldVisit(WebURL url) {
    String href = url.getURL().toLowerCase();
    return (!href.contains("static/button/url/"));
}

这对我很有用。

我有一个动态爬网/java脚本网站。但是所有的爬网工具都只显示css/js文件/如何获取动态数据。动态网站：java脚本页面我有爬网动态/java脚本网站。但是所有的爬网工具都只显示css/js文件/如何获取动态数据。动态网站：java脚本页面