如何获取域的URL列表_Url_Dns_Screen Scraping_Web Crawler

如何获取域的URL列表

url dns web-crawler

如何获取域的URL列表,url,dns,screen-scraping,web-crawler,Url,Dns,Screen Scraping,Web Crawler,我想为一个域生成一个URL列表，但我宁愿不爬域来节省带宽。那么，有没有一种方法可以使用现有的爬网数据呢我想到的一个解决方案是做一个测试，它可以让我下载TSV格式的前1000个结果。然而，要得到所有的记录，我就必须刮去搜索结果。谷歌也支持网站搜索，但不提供下载数据的简单方法你能想出一个更好的方法来处理大多数（如果不是全部）网站吗谢谢， Richard一些网站管理员提供，基本上是域上每个URL的XML列表。然而，除了爬行，没有通用的解决方案。如果您确实使用爬虫，请遵守robots.txt。您可

我想为一个域生成一个URL列表，但我宁愿不爬域来节省带宽。那么，有没有一种方法可以使用现有的爬网数据呢

我想到的一个解决方案是做一个测试，它可以让我下载TSV格式的前1000个结果。然而，要得到所有的记录，我就必须刮去搜索结果。谷歌也支持网站搜索，但不提供下载数据的简单方法

你能想出一个更好的方法来处理大多数（如果不是全部）网站吗

谢谢，

Richard

一些网站管理员提供，基本上是域上每个URL的XML列表。然而，除了爬行，没有通用的解决方案。如果您确实使用爬虫，请遵守robots.txt。

您可以通过此在线工具免费下载多达500个URL的列表：

…在工具爬网您的站点后，只需选择“文本列表”。

似乎没有合适的方式进行web爬网，所以我将坚持我当前的方法

另外，我发现大多数搜索引擎只公开前1000条搜索结果。

不幸的是，我看过的大多数网站都没有使用它们。我希望利用另一个爬虫程序的结果，而不是自己再爬虫。我不同意至少有一个通用的解决方案，我解释说是使用搜索引擎的爬虫结果。这是通过网站foo.org.Richard完成的，搜索引擎不会为每个域编制索引，它们的列表也不会包含它们编制索引的域上的每个页面。这就是为什么site:foo.org不是一个通用的解决方案。