Web 按公共网页的数量对域进行排序?

Web 按公共网页的数量对域进行排序?,web,Web,我想要一个排名前10万的域名列表,按不同的公共网页的数量排序 列表可以是这样的 Domain Name 100,000,000 pages Domain Name 99,000,000 pages Domain Name 98,000,000 pages ... 我不想知道哪些域名最受欢迎。我想知道哪些域具有最多的不同的、可公开访问的网页 我在谷歌上找不到这样的列表。我想Quantcast、Google或Alexa都会知道,但他们发布过这样的

我想要一个排名前10万的域名列表,按不同的公共网页的数量排序

列表可以是这样的

Domain Name         100,000,000 pages
Domain Name          99,000,000 pages
Domain Name          98,000,000 pages
...
我不想知道哪些域名最受欢迎。我想知道哪些域具有最多的不同的、可公开访问的网页


我在谷歌上找不到这样的列表。我想Quantcast、Google或Alexa都会知道,但他们发布过这样的列表吗?

对于给定的域,例如yahoo.com,你可以用Google搜索
站点:yahoo.com
;结果的顶部写着“大约141000000个结果(0.41秒)”。这包括
www.yahoo.com
it.yahoo.com
等子域


还要注意的是,有些网站会动态生成页面,因此它们实际上可能有无限的“页面”。一个给定的页面在被要求时会被计算出来,一旦被发送就会被遗忘。每个页面都可以有到下一页的链接。由于许多网站都是动态撰写页面,因此没有什么真正的区别(除了有无限多的页面,除非你要求所有页面,否则你无法找到这些页面)。

请记住以下几点:

  • 许多网站动态生成页面,留下可能无限多的页面
  • 页面通常位于安全屏障后面
  • 很少有公司有兴趣公布他们保存了多少信息
  • 索引在创建时会过期
对于具体的答案,我倾向于使用镜像和计数页面来反映感兴趣的站点

wget -m --wait=9 --limit-rate=10K http://domain.test
保持缓慢,以便公司不会将您识别为拒绝服务攻击

大多数搜索引擎也会允许你按站点搜索他们的索引,尽管结果页面上的信息可能会让人感到困惑,甚至超过一个粗略的数量级,而且无法知道他们索引了多少

我一眼就看不出他们在哪里保存或访问数据库,但在搜索引擎路径上,您可能还对和搜索引擎项目感兴趣


我能想到的唯一一个可能(a)信息容易获得,并且(b)足够友好和透明,愿意分享信息的组织将是。由于他们使用Wayback机器存档web已有很长一段时间了,而且非常注重透明度,因此他们可能是一个合理的起点。

是的。假设您可以使用Quantcast列出的前100万个域来运行这样的查询100万次。这是一个不错的解决方案(假设您的IP没有被阻止),但是有没有其他(更简单的)方法来获取这些数据?谢谢您深思熟虑的回答。我上次检查Wayback机器(几年前)时,他们只归档了几页,而不是所有的内容。但我喜欢“镜子”的角度。我在想的另一件事是,如果xml站点地图的URL少于50000个(最大),为了简单起见,您可以假设URL的数量是准确的。我没有想到站点地图。对于互联网档案,我想他们刚刚公布了大约4000亿页。我不知道离完成还有多远,但这肯定会成为一个好的新闻稿……也许有人能解释为什么这会被否决?我希望研究具有许多页面的大型、扩展性网站的前景。我意识到“独特”页面的定义有些抽象,但这与问题无关。还要记住,我有三十年的在线系统建设经验,这不是一个新手问题。如果我不知道我在说什么,请随意解释为什么这不是一个有效的问题。因为没有人能解释为什么这是一个糟糕的问题,我已经将其标记为删除。