Web crawler Crawler4j下载文章_Web Crawler_Crawler4j_Categorization

Web crawler Crawler4j下载文章

web-crawler

Web crawler Crawler4j下载文章,web-crawler,crawler4j,categorization,Web Crawler,Crawler4j,Categorization,我正在尝试使用Crawler4j从新闻门户网站下载文章。我想将它们存储在“体育”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url解析是不够的，因为有些门户不在Url中使用类别。我唯一的想法就是做一棵树，记住在当前页面上找到的链接。有更简单的方法吗？您可以解析实际页面并使用CSS标记，识别标题或面包屑我建议使用JSOUP来实现这一点你需要知道新闻网站以及哪个css标签是面包屑css标签。Hi，如果你认为我的答案可以接受，我可以请你接受吗？

我正在尝试使用Crawler4j从新闻门户网站下载文章。我想将它们存储在“体育”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url解析是不够的，因为有些门户不在Url中使用类别。我唯一的想法就是做一棵树，记住在当前页面上找到的链接。有更简单的方法吗？

您可以解析实际页面并使用CSS标记，识别标题或面包屑

我建议使用JSOUP来实现这一点

你需要知道新闻网站以及哪个css标签是面包屑css标签。

Hi，如果你认为我的答案可以接受，我可以请你接受吗？