我可以改进这个regex检查以获得有效的域名吗？_Regex_Dns_Whois

我可以改进这个regex检查以获得有效的域名吗？

regex dns

我可以改进这个regex检查以获得有效的域名吗？,regex,dns,whois,Regex,Dns,Whois,所以，我一直在研究这个域名正则表达式。到目前为止，它似乎使用SLD和TLD（可选的ccTLD）来获取域名，但TLD列表中存在重复。这可以进一步重构吗 params[:domain_name].downcase.strip.match(/^[a-z0-9\-]{2,63} \.((a[cdefgilmnoqrstuwxz]|aero|arpa)|(b[abdefghijmnorstvwyz]|biz)| (c[acdfghiklmnorsuvxyz]|cat|com|coop)|d[ejkmoz]

所以，我一直在研究这个域名正则表达式。到目前为止，它似乎使用SLD和TLD（可选的ccTLD）来获取域名，但TLD列表中存在重复。这可以进一步重构吗

params[:domain_name].downcase.strip.match(/^[a-z0-9\-]{2,63}
\.((a[cdefgilmnoqrstuwxz]|aero|arpa)|(b[abdefghijmnorstvwyz]|biz)|
(c[acdfghiklmnorsuvxyz]|cat|com|coop)|d[ejkmoz]|(e[ceghrstu]|edu)|f[ijkmor]|
(g[abdefghilmnpqrstuwy]|gov)|h[kmnrtu]|(i[delmnoqrst]|info|int)|
(j[emop]|jobs)|k[eghimnprwyz]|l[abcikrstuvy]|
(m[acdghklmnopqrstuvwxyz]|me|mil|mobi|museum)|(n[acefgilopruz]|name|net)|(om|org)|
(p[aefghklmnrstwy]|pro)|qa|r[eouw]|s[abcdeghijklmnortvyz]|
(t[cdfghjklmnoprtvwz]|travel)|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw])
(\.((a[cdefgilmnoqrstuwxz]|aero|arpa)|(b[abdefghijmnorstvwyz]|biz)|
(c[acdfghiklmnorsuvxyz]|cat|com|coop)|d[ejkmoz]|(e[ceghrstu]|edu)|f[ijkmor]|
(g[abdefghilmnpqrstuwy]|gov)|h[kmnrtu]|(i[delmnoqrst]|info|int)|
(j[emop]|jobs)|k[eghimnprwyz]|l[abcikrstuvy]|
m[acdghklmnopqrstuvwxyz]|mil|mobi|museum)|
(n[acefgilopruz]|name|net)|(om|org)|
(p[aefghklmnrstwy]|pro)|qa|r[eouw]|s[abcdeghijklmnortvyz]|
(t[cdfghjklmnoprtvwz]|travel)|u[agkmsyz]|v[aceginu]|w[fs]|y[etu]|z[amw]))?$/)

我可能对域名了解不够。但是为什么像“foo.info.com”这样的域名是匹配的呢？在这种情况下，域名似乎是“info.com”

您可能希望确保名称以[a-z\d]开头。我不认为您可以注册一个以破折号开头的域？

正如您所写的，TLD部分是等效的，但比

（\）{1,2}

长，但我确信它可以被修复以进行复制

编辑：是的，不，这是可能的，但本质上是一个非常缓慢的暴力列表来处理重复我认为。将可能的TLD和SLD+国家/地区对放在一个大hashmap中，并对照该hashmap检查子字符串，既简单又快速

您可以将正则表达式构建为字符串，然后执行Regexp.new（string）。

请，请，请不要使用这样一个固定且极其复杂的正则表达式来匹配已知域名

TLD列表并非一成不变，尤其是ICANN正在寻找新GTD的简化流程。即使是CCTLD的列表有时也会更改

请查看中提供的列表，并编写一些可以下载和解析该列表的代码。

我建议从中列出的规则开始，然后向后操作——但前提是您确实需要从头开始。域正则表达式模式必须是（仅次于电子邮件地址正则表达式模式）最常见的东西。我会查看该网站并浏览其他人所做的工作。

下载以下内容：

用法示例（在Python中）：

您可以将域列表构建从验证功能中分离出来，以帮助提高性能。

对于创建新域时需要维护的此类正则表达式，您的用例是什么？因为所有答案似乎都提供了查找TLD的其他方法，我建议重命名此问题，以避免将来重复（除非人们真的开始回答重构问题）好主意-这真的不是一个regexp问题。可怕的坏主意，特别是TLD的硬连线列表。关于正则表达式和眼睛出血：再次删除代码-任何noob都可以从网络读取文件，没有！etc处理它是没有用的。我想我同意。有更好的方法来做，但我需要一些难以置信的东西注册/转移。还有其他建议吗？这里有一个开源C#库，它使用publicsuffix.org解析域名：并非所有域名都由两部分组成。一个单一部分的例子：“ck”是库克群岛的域名（try或）；我自己的域名由三部分组成（nichesoftware.co.nz）由于.nz TLD中的一种结构，RFC技术上不允许所有数字域部分，但实际上注册商和名称服务器已经允许它们多年了。对于awesomedomain.co.uk这样的域，结果并不像预期的那样——TLD没有被考虑。uk它是.co.uk它最好使用@DanEsparza:这样的东西，将其记录为“*.uk”而不是“co.uk”。@DennisWilliamson

条目中的

表示

.uk

的每个子域都是公共的，但明确列出的子域除外。

import re
def validate(domain):
    valid_domains = [ line.upper().replace('.', '\.').strip() 
                      for line in open('domains.txt') 
                      if line[0] != '#' ]
    r = re.compile(r'^[A-Z0-9\-]{2,63}\.(%s)$' % ('|'.join(valid_domains),))
    return True if r.match(domain.upper()) else False


print validate('stackoverflow.com')
print validate('omnom.nom')