Url 查找域及其子域中的所有网页

Url 查找域及其子域中的所有网页,url,solr,web-crawler,nutch,Url,Solr,Web Crawler,Nutch,我正在寻找一种方法来找到一个域中的所有网页和子域。例如,在uoregon.edu域中,我想查找该域和所有子域(例如cs.uoregon.edu)中的所有网页 我一直在关注nutch,我认为它可以胜任这项工作。但是,nutch似乎下载了整个网页,并为其编制索引以供以后搜索。但是,我想要一个爬虫,只扫描网页的URL属于同一个域。此外,nutch似乎以序列化格式保存linkdb。我怎么读呢?我试过solr,它可以读取nutch收集的数据。但是,我不认为我需要solr,因为我不执行任何搜索。我所需要的只

我正在寻找一种方法来找到一个域中的所有网页和子域。例如,在uoregon.edu域中,我想查找该域和所有子域(例如cs.uoregon.edu)中的所有网页

我一直在关注nutch,我认为它可以胜任这项工作。但是,nutch似乎下载了整个网页,并为其编制索引以供以后搜索。但是,我想要一个爬虫,只扫描网页的URL属于同一个域。此外,nutch似乎以序列化格式保存linkdb。我怎么读呢?我试过solr,它可以读取nutch收集的数据。但是,我不认为我需要solr,因为我不执行任何搜索。我所需要的只是属于给定域的URL


谢谢

< P>如果你熟悉红宝石,考虑使用银莲花。奇妙的爬行框架。下面是开箱即用的示例代码

require 'anemone'

urls = []

Anemone.crawl(site_url)
  anemone.on_every_page do |page|
    urls << page.url
  end
end
需要“海葵”
URL=[]
海葵.爬行(网站地址)
银莲花。每一页都做一页|

URL查找给定域的所有子域的最简单方法是要求相关站点的DNS管理员向您提供一个或其区域文件;如果区域中有任何服务器,您还必须获取响应通配符DNS条目请求的服务器的配置(以及可能的代码)。不要忘记,域名空间的一部分可能由其他DNS服务器处理——您必须从所有这些服务器获取数据


这尤其复杂,因为HTTP服务器可能对烘焙到其服务器配置文件中的不同名称的请求有不同的处理,或者运行服务器的应用程序代码,或者运行服务器的应用程序代码将执行数据库查找以确定如何处理给定名称。FTP不提供基于名称的虚拟主机,您感兴趣的任何其他服务都可能提供或不提供基于名称的虚拟主机协议。

我尝试了海葵,至少在域中,它在查找所有内容方面做得很好。我还没有尝试过子域。谢谢。这是子域的直接链接:另外,如果我的帖子对你有帮助,考虑将其标记为答案,以便未来的人们会看到这确实是他们问题的解决方案。你可以使用