Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何获取域的URL列表_Url_Dns_Screen Scraping_Web Crawler - Fatal编程技术网

如何获取域的URL列表

如何获取域的URL列表,url,dns,screen-scraping,web-crawler,Url,Dns,Screen Scraping,Web Crawler,我想为一个域生成一个URL列表,但我宁愿不爬域来节省带宽。那么,有没有一种方法可以使用现有的爬网数据呢 我想到的一个解决方案是做一个测试,它可以让我下载TSV格式的前1000个结果。然而,要得到所有的记录,我就必须刮去搜索结果。谷歌也支持网站搜索,但不提供下载数据的简单方法 你能想出一个更好的方法来处理大多数(如果不是全部)网站吗 谢谢, Richard一些网站管理员提供,基本上是域上每个URL的XML列表。然而,除了爬行,没有通用的解决方案。如果您确实使用爬虫,请遵守robots.txt。您可

我想为一个域生成一个URL列表,但我宁愿不爬域来节省带宽。那么,有没有一种方法可以使用现有的爬网数据呢

我想到的一个解决方案是做一个测试,它可以让我下载TSV格式的前1000个结果。然而,要得到所有的记录,我就必须刮去搜索结果。谷歌也支持网站搜索,但不提供下载数据的简单方法

你能想出一个更好的方法来处理大多数(如果不是全部)网站吗

谢谢,
Richard

一些网站管理员提供,基本上是域上每个URL的XML列表。然而,除了爬行,没有通用的解决方案。如果您确实使用爬虫,请遵守robots.txt。

您可以通过此在线工具免费下载多达500个URL的列表:

…在工具爬网您的站点后,只需选择“文本列表”。

似乎没有合适的方式进行web爬网,所以我将坚持我当前的方法


另外,我发现大多数搜索引擎只公开前1000条搜索结果。

不幸的是,我看过的大多数网站都没有使用它们。我希望利用另一个爬虫程序的结果,而不是自己再爬虫。我不同意至少有一个通用的解决方案,我解释说是使用搜索引擎的爬虫结果。这是通过网站foo.org.Richard完成的,搜索引擎不会为每个域编制索引,它们的列表也不会包含它们编制索引的域上的每个页面。这就是为什么site:foo.org不是一个通用的解决方案。