Web crawler Crawler4j下载文章

Web crawler Crawler4j下载文章,web-crawler,crawler4j,categorization,Web Crawler,Crawler4j,Categorization,我正在尝试使用Crawler4j从新闻门户网站下载文章。我想将它们存储在“体育”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url解析是不够的,因为有些门户不在Url中使用类别。我唯一的想法就是做一棵树,记住在当前页面上找到的链接。有更简单的方法吗?您可以解析实际页面并使用CSS标记,识别标题或面包屑 我建议使用JSOUP来实现这一点 你需要知道新闻网站以及哪个css标签是面包屑css标签。Hi,如果你认为我的答案可以接受,我可以请你接受吗?

我正在尝试使用Crawler4j从新闻门户网站下载文章。我想将它们存储在“体育”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url解析是不够的,因为有些门户不在Url中使用类别。我唯一的想法就是做一棵树,记住在当前页面上找到的链接。有更简单的方法吗?

您可以解析实际页面并使用CSS标记,识别标题或面包屑

我建议使用JSOUP来实现这一点


你需要知道新闻网站以及哪个css标签是面包屑css标签。

Hi,如果你认为我的答案可以接受,我可以请你接受吗?