Web crawler 仅爬行动态数据

Web crawler 仅爬行动态数据,web-crawler,crawler4j,Web Crawler,Crawler4j,我正试图抓取一家当地报纸的档案,并得到了预期的结果。我是否有办法对爬虫程序进行编程,使每个页面上相同的静态按钮(如主页按钮及其页脚)不包括在爬虫程序中 这是我用来显示爬网数据的代码 System.out.println(Jsoup.parse(html).body().text_mod()); 我认为有两种方法可以解决你的问题,一种是通用的,另一种是临时的 1通用 要从网站获取内容,您可以使用工具(如)删除样板代码。这将导致由库提取文本。然而,你几乎无法控制锅炉管内发生的事情 2特设 可以使用

我正试图抓取一家当地报纸的档案,并得到了预期的结果。我是否有办法对爬虫程序进行编程,使每个页面上相同的静态按钮(如主页按钮及其页脚)不包括在爬虫程序中

这是我用来显示爬网数据的代码

System.out.println(Jsoup.parse(html).body().text_mod());

我认为有两种方法可以解决你的问题,一种是通用的,另一种是临时的

1通用 要从网站获取内容,您可以使用工具(如)删除样板代码。这将导致由库提取文本。然而,你几乎无法控制锅炉管内发生的事情

2特设 可以使用Jsoup删除树中不需要的节点。为此,您将获得Jsoup处理的文档:

Document doc = Jsoup.parse(html):

然后使用Jsoup选择器获取要从页面中删除的节点。请参阅此处的文档:。选择节点后,使用Element类中的remove方法。

我看到两种解决方案,一种是通用的,另一种是特殊的

1通用 要从网站获取内容,您可以使用工具(如)删除样板代码。这将导致由库提取文本。然而,你几乎无法控制锅炉管内发生的事情

2特设 可以使用Jsoup删除树中不需要的节点。为此,您将获得Jsoup处理的文档:

Document doc = Jsoup.parse(html):

然后使用Jsoup选择器获取要从页面中删除的节点。请参阅此处的文档:。选择节点后,使用元素类中的remove方法。

shouldVisit方法如何?您可以根据URL模式添加条件,例如:

    @Override
public boolean shouldVisit(WebURL url) {
    String href = url.getURL().toLowerCase();
    return (!href.contains("static/button/url/"));
}

这对我很有用。

shouldVisite方法怎么样?您可以根据URL模式添加条件,例如:

    @Override
public boolean shouldVisit(WebURL url) {
    String href = url.getURL().toLowerCase();
    return (!href.contains("static/button/url/"));
}

这对我很有用。

我有一个动态爬网/java脚本网站。但是所有的爬网工具都只显示css/js文件/如何获取动态数据。动态网站:java脚本页面我有爬网动态/java脚本网站。但是所有的爬网工具都只显示css/js文件/如何获取动态数据。动态网站:java脚本页面