Web 有没有办法找到网站列表的规范域名?

Web 有没有办法找到网站列表的规范域名?,web,subdomain,domain-name,canonical-link,Web,Subdomain,Domain Name,Canonical Link,我正在开发一个网页跟踪web应用程序,我想获得网站列表的规范域。据我所知,没有一种好的方法可以告诉你一个站点的子域和顶级域的所有权从哪里开始和结束。我不确定最好的描述方式,因此这里有一个例子: 如果我拥有一个个人URL,mysite.com,我可以设置子域,如www.mysite.com,cdn.mysite.com,等等 如果我的“团队”在大学里有一个网站,比如computerscience.myuni.edu,我可能也可以控制www.computerscience.myuni.edu,但不能

我正在开发一个网页跟踪web应用程序,我想获得网站列表的规范域。据我所知,没有一种好的方法可以告诉你一个站点的子域和顶级域的所有权从哪里开始和结束。我不确定最好的描述方式,因此这里有一个例子:

如果我拥有一个个人URL,
mysite.com
,我可以设置子域,如
www.mysite.com
cdn.mysite.com
,等等

如果我的“团队”在大学里有一个网站,比如
computerscience.myuni.edu
,我可能也可以控制
www.computerscience.myuni.edu
,但不能控制
myuni.edu

如果我是一个庞大的企业,需要分散网络流量,我甚至可能有
www.acme.com
ww2.acme.com
w3.acme.com
,等等

因此,没有什么是确定的,但如果给我一个URL,我可能可以从前面剥离
www.
ww2.
,和
cdn.
,或者
安全。
,但有没有其他我不认为是相当常见的、通常不用于提供不同网站的常见“子域”


我想我只是想找出获得网站真正“规范”域名的最佳方法。

首先,你应该区分域名和网站/URL。 我不认为有任何有效的方法可以轻易识别网站所有者,但关于域名,可以通过其结构推断出来

大致上,完全限定的域名由子域名称后缀组成,在您的情况下,您需要查找规范域名(名称+后缀)

由于域名系统是分层的,像
www.example.com.
这样的FQDN应该从头到尾读取:
.com.example.www
,并且可以这样分解:

  • 后缀
    com
  • 名称
    示例
  • 子域
    www
为了便于识别,您应按照相同的顺序进行:

  • 后缀:查找名称注册时使用的后缀(.com、.net、.co.uk、.com.es)
  • 名称:在点后识别第一个名称
  • 子域:去掉字符串的其余部分
  • 没有官方数据库列出所有的公共后缀,但是在Mozilla基金会的倡议下,创建了一个非官方的后缀。该项目被命名为,其目的是记录后缀,人们可以在后缀下注册域名,并拥有自己的域名

    我在我的个人博客上写了一篇介绍域名系统的文章,如果您感兴趣,我将在这里详细介绍域名结构: