正则表达式匹配DNS主机名或IP地址?

谁有一个正则表达式,可以匹配任何合法的DNS主机名或IP地址?

编写一个95%的工作时间很容易,但我希望得到一个经过良好测试的东西,完全匹配DNS主机名的最新RFC规范。

409554 次浏览

您可以单独使用下列正则表达式,也可以将它们组合在一个联合或表达式中使用。

ValidIpAddressRegex = "^(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$";


ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9\-]*[A-Za-z0-9])$";

ValidIpAddressRegex匹配有效的IP地址,ValidHostnameRegex匹配有效的主机名。根据您使用的语言,\可能必须用\进行转义。


ValidHostnameRegex对于RFC 1123是有效的。最初,RFC 952指定主机名段不能以数字开头。

http://en.wikipedia.org/wiki/Hostname

的原始规格 RFC 952 < / >, 规定标签不能开始 用数字或连字符,和 不能以连字符结尾。然而,一个 后续规范(RFC 1123 < / >) 允许启动主机名标签 与数字。< / p >

Valid952HostnameRegex = "^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$";

下面是我在Ant中用于从ANT_OPTS中获取代理主机IP或主机名的正则表达式。这用于获取代理IP,以便在为fork JVM配置代理之前运行Ant“isreachable”测试。

^.*-Dhttp\.proxyHost=(\w{1,}\.\w{1,}\.\w{1,}\.*\w{0,})\s.*$

我似乎无法编辑顶部的帖子,所以我将在这里添加我的答案。

对于主机名——简单答案,在这里的egrep示例中——http: //www.linuxinsight.com/how_to_grep_for_ip_addresses_using_the_gnu_egrep_utility.html

egrep '([[:digit:]]{1,3}\.){3}[[:digit:]]{1,3}'

尽管这种情况不包括拳头八位元中的0,以及大于254 (ip地址)或255(网络掩码)的值。也许附加一个if语句会有所帮助。

至于合法的dns主机名,如果你只检查互联网主机名(而不是内部网),我写了下面的剪辑,shell/php的混合,但它应该适用于任何正则表达式。

首先去ietf网站,下载并解析一个合法的一级域名列表:

tld=$(curl -s http://data.iana.org/TLD/tlds-alpha-by-domain.txt |  sed 1d  | cut -f1 -d'-' | tr '\n' '|' | sed 's/\(.*\)./\1/')
echo "($tld)"

这应该给你一个很好的重新代码,检查顶级域名的合法性,如。com .org或。ca

然后根据这里找到的准则添加表达式的第一部分——http: //www.domainit.com/support/faq.mhtml?category=Domain_FAQ&question=9(任何字母数字组合和'-'符号,破折号不应该出现在八位体的开头或结尾。

(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+

然后把它们放在一起(PHP preg_match的例子):

$pattern = '/^(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+(AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|YE|YT|YU|ZA|ZM|ZW)[.]?$/i';


if (preg_match, $pattern, $matching_string){
... do stuff
}

你可能还想添加一个if语句来检查你检查的字符串是否小于256个字符——http://www.ops.ietf.org/lists/namedroppers/namedroppers.2003/msg00964.html

smink的主机名正则表达式不遵守主机名中各个标签长度的限制。有效主机名中的每个标签长度不能超过63个字节。

ValidHostnameRegex="^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])\
(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$"

请注意,第一行末尾的反斜杠(上面)是用于分隔长行的Unix shell语法。它不是正则表达式本身的一部分。

下面是一行中单独的正则表达式:

^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$

You should also check separately that the total length of the hostname must not exceed 255 characters. For more information, please consult RFC-952 and RFC-1123.

def isValidHostname(hostname):


if len(hostname) > 255:
return False
if hostname[-1:] == ".":
hostname = hostname[:-1]   # strip exactly one dot from the right,
#  if present
allowed = re.compile("(?!-)[A-Z\d-]{1,63}(?<!-)$", re.IGNORECASE)
return all(allowed.match(x) for x in hostname.split("."))

检查主机名,比如…mywebsite.co。In, thangaraj.name, 18thangaraj。thangaraj106。在等,

[a-z\d+].*?\\.\w{2,4}$

我认为这是最好的Ip验证规则。请检查一次!!

^(([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))\.){3}([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))$

要匹配一个有效的IP地址,请使用以下正则表达式:

(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)){3}

而不是:

([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])(\.([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])){3}

解释

许多正则表达式引擎匹配OR序列中的第一种可能性。例如,试试下面的正则表达式:

10.48.0.200

测试

测试之间的区别

这个怎么样?

([0-9]{1,3}\.){3}[0-9]{1,3}
/^(?:[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])(?:\.[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])?$/

我发现这对于IP地址来说非常有效。它像上面的答案一样进行验证,但它也确保ip是隔离的,因此在ip之后或之前没有文本或更多的数字/小数。

(? & lt; ! \ S)(吗? (?:\ d | (1 - 9) \ d | 1 \ \ d | 2 (0 - 4) \ d | 25 (0 - 5)) \ b |。\ b) {7} (? ! \ S)

"^((\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])\.){3}(\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])$"
AddressRegex = "^(ftp|http|https):\/\/([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}:[0-9]{1,5})$";


HostnameRegex =  /^(ftp|http|https):\/\/([a-z0-9]+\.)?[a-z0-9][a-z0-9-]*((\.[a-z]{2,6})|(\.[a-z]{2,6})(\.[a-z]{2,6}))$/i

这些re仅用于此类型验证

只适用于 < a href = " http://www.kk.com " rel =“nofollow”> http://www.kk.com < / > http://www.kk.co.in < / p >

不适合

< a href = " http://www.kk.com/ " rel =“nofollow”> http://www.kk.com/ http://www.kk.co.in.kk < / p >

http://www.kk.com/dfas http://www.kk.co.in/ < / p >

这适用于有效的IP地址:

regex = '^([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])$'

试试这个:

((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

这对我来说是有效的。

关于IP地址,似乎存在一些关于是否包含前导零的争论。这曾经是一种常见的做法,并且被普遍接受,所以我认为不管当前的首选项是什么,应该都应该被标记为有效。对于字符串之前和之后的文本是否应该验证还有一些不明确的地方,同样,我认为应该验证。1.2.3.4是一个有效的IP,但1.2.3.4.5不是,1.2.3.4部分和2.3.4.5部分都不应该导致匹配。一些担忧可以用这个表达式来处理:

grep -E '(^|[^[:alnum:]+)(([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])\.){3}([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])([^[:alnum:]]|$)'

不幸的是,在许多提供的解决方案中,验证八位体的正则表达式部分是重复的。尽管这比模式的实例更好,但如果所使用的正则表达式支持子例程,则可以完全消除重复。下一个示例使用grep-P开关启用这些函数,并且还利用了前向和后向功能。(我选择的函数名是'o'表示八位元。我本可以使用“octet”作为名称,但我想要简洁。)

grep -P '(?<![\d\w\.])(?<o>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<o>){3}(?![\d\w\.])'

如果IP地址在一个包含句子形式文本的文件中,那么点号的处理实际上可能会产生错误的否定,因为句号可以跟在后面,而不是点号符号的一部分。上面的一个变体可以修复这个问题:

grep -P '(?<![\d\w\.])(?<x>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<x>){3}(?!([\d\w]|\.\d))'
我想到了这个简单的正则表达式匹配模式的IP地址匹配 \ d + [] \ d + [] \ d + [] \ d + < / p >

on php: filter_var(gethostbyname($dns), FILTER_VALIDATE_IP) == true ? 'ip' : 'not ip'

>>> my_hostname = "testhostn.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True
>>> my_hostname = "testhostn....ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
False
>>> my_hostname = "testhostn.A.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True

值得注意的是,大多数语言都有这样的库,它们通常内置在标准库中。这些库的更新频率可能比你四年前从Stack Overflow的答案中复制而忘记的代码要高得多。当然,他们通常也会把地址解析成一些可用的形式,而不仅仅是给你一堆组的匹配。

例如,在(POSIX) C中检测和解析IPv4:

#include <arpa/inet.h>
#include <stdio.h>


int main(int argc, char *argv[]) {
for (int i=1; i!=argc; ++i) {
struct in_addr addr = {0};
printf("%s: ", argv[i]);
if (inet_pton(AF_INET, argv[i], &addr) != 1)
printf("invalid\n");
else
printf("%u\n", addr.s_addr);
}
return 0;
}

显然,如果您试图查找聊天消息中的所有有效地址,这样的函数将不起作用——但即使这样,使用一个简单但过于热心的正则表达式来查找潜在的匹配,然后使用库来解析它们可能会更容易。

例如,在Python中:

>>> import ipaddress
>>> import re
>>> msg = "My address is 192.168.0.42; 192.168.0.420 is not an address"
>>> for maybeip in re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', msg):
...     try:
...         print(ipaddress.ip_address(maybeip))
...     except ValueError:
...         pass

新的网络框架为结构IPv4Address和结构IPv6Address提供了可失败的初始化器,可以很容易地处理IP地址部分。在IPv6中使用regex实现这一点很困难,因为所有的缩短规则。

不幸的是,对于主机名,我没有一个优雅的答案。

注意,网络框架是最近的,所以它可能会强迫你编译最新的操作系统版本。

import Network
let tests = ["192.168.4.4","fkjhwojfw","192.168.4.4.4","2620:3","2620::33"]


for test in tests {
if let _ = IPv4Address(test) {
debugPrint("\(test) is valid ipv4 address")
} else if let _ = IPv6Address(test) {
debugPrint("\(test) is valid ipv6 address")
} else {
debugPrint("\(test) is not a valid IP address")
}
}


output:
"192.168.4.4 is valid ipv4 address"
"fkjhwojfw is not a valid IP address"
"192.168.4.4.4 is not a valid IP address"
"2620:3 is not a valid IP address"
"2620::33 is valid ipv6 address"