Web scraping 如何从任何网站批量提取页面URL?

Web scraping 如何从任何网站批量提取页面URL?,web-scraping,screen-scraping,scraper,extractor,Web Scraping,Screen Scraping,Scraper,Extractor,我正在寻找一个免费的解决方案/工具/软件,通过它我可以拉出网站的所有页面URL。该网站有大约992000页,所以我需要在excel表中的所有他们的URL 我正在使用“site:mywebsite.com”,它会给我992000个结果。我知道我可以使每页的最大结果达到100,但这仍然不能使我的生活更轻松。谷歌也不会显示超过1000条的搜索结果。尝试使用谷歌API,但没有任何运气。尝试了站点地图生成器,但它们也不起作用。谷歌将搜索查询结果限制为1000。工具能够真正绕过这一点的唯一方法是对关键字进行

我正在寻找一个免费的解决方案/工具/软件,通过它我可以拉出网站的所有页面URL。该网站有大约992000页,所以我需要在excel表中的所有他们的URL


我正在使用“site:mywebsite.com”,它会给我992000个结果。我知道我可以使每页的最大结果达到100,但这仍然不能使我的生活更轻松。谷歌也不会显示超过1000条的搜索结果。尝试使用谷歌API,但没有任何运气。尝试了站点地图生成器,但它们也不起作用。

谷歌将搜索查询结果限制为1000。工具能够真正绕过这一点的唯一方法是对关键字进行子集处理,例如(site:abc.com+random word)。随机词将返回较少的结果,并且有足够多的查询被刮取并合并到一个列表中,然后可以删除重复项并获得一个几乎完整的原始所需搜索词列表。

您可以使用爬虫工具对整个网站进行爬网,并保存访问过的URL。免费工具包括:

  • IRobotSoft:。使用:爬行网站(SourceSites,CallTask)功能

  • 刮痧:


它不起作用;因为我不能错过任何一个网址。