URL应该区分大小写吗?

我注意到

HTTP://STACKOVERFLOW.COM/QUESTIONS/ASK

而且

http://stackoverflow.com/questions/ask

两者都可以工作-实际上前一个转换为小写字母。

我认为这对用户来说是有意义的。

如果我看谷歌,那么这个URL工作正常:

http://www.google.com/intl/en/about/corporate/index.html 

但是这个带ABOUT的不能用:

http://www.google.com/intl/en/ABOUT/corporate/index.html 

URL是否应该区分大小写?

191786 次浏览

取决于主机操作系统。托管在Windows上的站点往往不区分大小写,因为底层文件系统不区分大小写。托管在Unix类型系统上的站点往往是区分大小写的,因为它们的底层文件系统通常是区分大小写的。URL的主机名部分总是不区分大小写的,路径的其余部分是不同的。

根据W3的“HTML和url”,它们应该:

可能有url,或者url的一部分,大小写不重要,但是 识别这些可能并不容易。用户应该始终考虑到这一点 url是区分大小写的
URL的域名部分不区分大小写,因为DNS忽略大小写: http://en.example.org/HTTP://EN.EXAMPLE.ORG/都打开了同一页

路径用于指定或查找所请求的资源。它是区分大小写的,尽管它可能被某些服务器视为不区分大小写,特别是那些基于Microsoft Windows的服务器。

如果服务器是区分大小写的,并且http://en.example.org/wiki/URL是正确的,那么http://en.example.org/WIKI/URLhttp://en.example.org/wiki/url将显示一个HTTP 404错误页面,除非这些url指向有效资源本身。

为了可读性,所有的“不敏感”s都加粗了。

域名是大小写不敏感,根据RFC 4343。URL的其余部分通过GET方法发送到服务器。这可能区分大小写。

以这个页面为例,stackoverflow.com接收GET字符串/ / 7996919 / should-url-be-case-sensitive问题,向浏览器发送HTML文档。Stackoverflow.com是case 不敏感,因为它为/ / 7996919 / Should-url-be-case-sensitive问题生成相同的结果。

另一方面,维基百科是区分大小写的,除了标题的第一个字符。url https://en.wikipedia.org/wiki/Case_sensitivityhttps://en.wikipedia.org/wiki/case_sensitivity指向同一篇文章,但https://en.wikipedia.org/wiki/CASE_SENSITIVITY返回404。

问题是url是否应该区分大小写?

我认为区分大小写的URL没有用处,也没有很好的实践。这很愚蠢,很糟糕,应该在任何时候都避免。

只是为了支持我的观点,当有人问什么URL,你怎么解释URL的字符是大写还是小写?这是无稽之谈,没有人会告诉你不是这样的。

url应该不区分大小写,除非有很好的理由说明它们不应该区分大小写。

这不是强制性的(它不是RFC的任何一部分),但它使url的通信和存储更加可靠。

如果我在网站上有两页:

http://stackoverflow.com/ABOUT.html

而且

http://stackoverflow.com/about.html

它们有何不同?也许有人写的是“大喊风格”(大写)——但从IA的角度来看,这种区别永远不应该通过URL的变化来区分。

此外,在Apache中很容易实现这一点——只需使用mod_spelling中的CheckSpelling On

我不喜欢撞旧文章,但因为这是对这个特定问题的第一个回应,我觉得有必要澄清一些事情。

@Bhavin Shah回答说url的域名部分是不区分大小写的,所以

http://google.com

而且

http://GOOGLE.COM

而且

http://GoOgLe.CoM

都是一样的,但域名部分之后的所有内容都是区分大小写的。

所以…

http://GOOGLE.COM/ABOUT

而且

http://GOOGLE.COM/about

是不同的。

注意:我说的是“技术上”,而不是“字面上”在很多情况下,大多数情况下,服务器的设置处理这些项目相同,但也有可能设置他们,所以他们不处理相同。

不同的服务器处理方式不同,在某些情况下,它们必须区分大小写。在许多情况下,查询字符串值是被编码的(例如Session id或Base64编码的数据,作为查询字符串值传递)这些项本质上是区分大小写的,因此服务器在处理它们时必须区分大小写。

因此,要回答这个问题,服务器在获取这些数据时“应该”区分大小写吗?答案是“是的,绝对是”。

当然,并不是所有的内容都需要区分大小写,但是服务器应该知道区分大小写的含义以及如何处理这些大小写。


@Hart Simha的评论基本上说了同样的事情。在我发布之前我错过了它,所以我想在应得的地方给予赞扬。

老问题,但我在这里绊了一下,所以为什么不尝试一下呢,因为这个问题寻求的是不同的观点,而不是一个确定的答案。

w3c可能有它的建议-我很关心-但想要重新考虑,因为问题在这里。

为什么w3c认为域名是不区分大小写的,并且在后面留下不区分大小写的内容?

我认为基本原理是URL的域部分是由用户手动输入的。 超文本之后的所有内容都将由机器(后面的浏览器和服务器)解析

机器可以比人类更好地处理不区分大小写的问题(不是技术上的:))。

但问题是,仅仅因为机器可以处理,就应该这样做吗?

我的意思是,命名和访问位于hereIsTheResourcehereistheresource的资源有什么好处?

横向结构比驼色结构更难读,驼色结构更易读。 人类可读(包括技术类)

以下是我的观点:-

资源路径位于编程结构的中间位置,有时靠近浏览器后面的终端用户。

你的URL(不包括域名)应该不区分大小写,如果你的用户希望触摸它或键入它等等。在开发应用程序时,应该尽量避免让用户键入路径。

你的URL(不包括域名)应该区分大小写,如果你的用户从来不会手动输入它。

结论

Path应该区分大小写。我的观点倾向于区分大小写。

对于Linux服务器上的网站,URL区分大小写。 http://www.google.com/abouthttp://www.google.com/About将被重定向到不同的位置。而在Windows Server中,URL是不区分大小写的,就像命名文件夹一样,将被重定向到相同的位置

可以创建不区分大小写的url

RewriteEngine on
rewritemap lowercase int:tolower
RewriteCond $1 [A-Z]
RewriteRule ^/(.*)$ /${lowercase:$1} [R=301,L]

使Google.com.. Google.com等直接到Google.com

请看这里的说明: 2.7.3节 https://datatracker.ietf.org/doc/html/draft-ietf-httpbis-p1-messaging-25#page-19 < / p >

方案和主机不区分大小写,通常用小写字母表示;所有其他组件以区分大小写的方式进行比较 方式。< / em > < / p >

URL字符被转换为十六进制代码(如果您注意到URL中的空格显示为%20等),由于小写字母和大写字母有不同的十六进制值,因此URL肯定是区分大小写的。然而,问题的精神似乎是,这应该是标准,我说不,但他们是。如果开发人员/提供商希望它能够为最终用户工作,那么他们就应该在代码中考虑到这一点。

我认为这和许多关于规范做了什么或没有说什么的答案都没有抓住问题的重点。应该是否区分大小写?这是一个意味深长的问题。从用户的角度来看,区分大小写是一个痛点,不是所有人都知道就有区别。uri应该还是不应该的问题取决于问题的上下文。就技术灵活性而言,是的,它们应该如此。就可用性而言,不,它们不应该如此。

考虑以下几点:

https://www.example.com/createuser.php?name=Paul%20McCartney

在这个假设的示例中,HTML表单(使用GET方法)将“name”参数发送给创建新用户帐户的PHP脚本。

我在这个例子中要强调的一点是,这个GET参数需要区分大小写,以保留“McCartney”的大写字母(或者,作为另一个例子,保留“Walter d’isney”,因为还有其他方法可以打破通常的大写字母规则)。

正是这样的情况指导了W3C的建议,即方案和主机不区分大小写,但之后的所有内容都可能区分大小写——这取决于服务器。通过标准强制不区分大小写将使上面的示例无法保留作为GET查询参数传递的用户输入的大小写。

但我想说的是,尽管这是法律条文中对此类案件的规定,但法律的精神是,在与案件无关的情况下,不区分案件。然而,这些标准并不能告诉你什么情况下大小写无关紧要,因为,就像我给出的例子一样,这是一个与上下文相关的东西。

(例如,帐户用户名最好不区分大小写,因为“User123”和“User123”是不同的帐户,可能会令人混淆,即使他们的真实姓名,如上所示,最好是左区分大小写。)

有时是相关的,大多数时候不是。但这必须由服务器/ web开发人员来决定这些事情——不能由标准规定——因为只有在这个级别上才能知道上下文。

方案和主机是不区分大小写的(这显示了标准对不区分大小写的偏好,在这里它可以被普遍规定)。其余的由您自己决定,因为您更好地理解了上下文。但是,正如已经讨论过的,根据法律的精神,您可能应该默认不区分大小写,除非您有很好的理由不这样做。

情况下保存

url是case-preserving,在客户端和服务器之间。但是部分url可能是区分大小写的,也可能不是,这取决于服务器,原因有几个。

区分大小写

url 五月的以下大胆的部分是区分大小写的,这取决于站点和/或服务器配置。

/ abc / def.ghi吗?. jkl = mno # pqr . http://__abc0 example.com

用户 @ example.com

基本原理

url中的大小写敏感有多种用途。主要是:

  1. 与区分大小写的文件系统的本机兼容性。
  2. URL内更紧凑的数据编码,例如序列化、散列、id、永久链接和URL缩短器。

作为一名开发人员,我相信上述问题通常可以以更好的方式处理,但我也理解在某些情况下可能不允许这样做。

例如,想象一个现有的产品需要大量的数据放在“GET"URL,但是它必须与所有主要服务器、浏览器和缓存/代理机制的最大URL长度兼容。为了适应中等长度的命令字符串(对于一些旧的浏览器来说小于1024个字符),您需要使用每个惟一的url安全字符(这基本上就是base64url编码)。

理想世界

url 应该是否区分大小写是有争议的。我个人认为,为了简单起见,它们不应该是这样的(尽管它可能会创建更长的URL,但我们有百分数转义来轻松处理必须确保保存确切字符的情况,并且有其他方法可以在URL中传输数据)。

许多人似乎都同意这样一个事实,即许多流行的网站和服务都明确启用了不区分大小写的url,以提高可用性。最突出的例子是电子邮件地址的用户名部分。大多数电子邮件提供商会忽略大小写,有时甚至是点和其他符号(如"j.smith@example.com"与"JSMITH@example.com"相同)。尽管根据规范,电子邮件用户名默认情况下是区分大小写的。

然而,事实是,不管我或其他人想要什么,这就是事情目前的工作状态。虽然最终在全球范围内过渡到不区分大小写的URL标准当然是可能的,但这可能需要相当长的时间,因为区分大小写目前在网络上被广泛用于各种目的。

最佳实践

就最佳实践而言,作为用户,您可以合理地在大多数情况下坚持使用小写字母,并期望事情能够正常工作。主要的例外是使用基于实例的编码的url或具有直接文件系统等价物的文档路径。然而,这种复杂的url通常是复制粘贴的(或简单地单击),而不是手动输入的。

作为一个web开发人员,你应该考虑让url尽可能不区分大小写。尽管如上所述,根据上下文,显然有一些难以避免的情况。

一般来说,url的大小写敏感性(以及它们在不同大小写下是否相同)需要从以下角度来看待:

  • 资源等效
  • URL的比较

从资源等价的角度来看,通常不可能说两个url在任何情况下都不同(小写,大写,句子大小写,驼峰大小写……)大小写的任何组合)彼此不同,除非资源从两个url中检索,这在许多情况下是不实际的(RFC 3986,章节6.1,第1段)。因此,当资源无法检索时,将使用比较透视图。

然而,在可以检索资源的情况下,问题会变得更加复杂(正如预期的那样)。通过RFC 3986,章节3.3,第5段的规定,如下所示

除了分层路径中的点段之外,路径段是 泛型语法

认为是不透明的

似乎不能从通用语法(包括敏感性问题)对URI/URL的方案和权限以外的其他部分做出任何假设。

然而,对于授权的方案和主机部分,规范(仁慈地)规定它们是不区分大小写的。参考RFC 3986,章节3.1,第1段RFC 3986,章节6.2.2.1,第2段

在穷尽了这条查询线之后,应该查看比较透视图,以确定URI/ url是否区分大小写。

对这个方向的第一个提示是通过阅读6.2.2.1节(上面)

另一个泛型语法 除非特别说明,否则假定组件是区分大小写的 由方案

定义

如果考虑RFC 2616,章节3.2.3

当比较两个uri以决定它们是否匹配时,客户机 是否应该使用区分大小写的八个字节对整个代码进行比较 uri < / p >

然后,最后,查询是否已解决,url是否区分大小写…(嘿!),不完全是,关键的词是“opaque”,“client”和“comparison”。

除了它的语法之外,上面的RFC没有提到任何关于路径和查询的实际解释,除了它是“不透明的”,它只指定了“客户端”如何(使用SHOULD而不是MUST)“比较”URL。它没有提到服务器(应该,更不用说必须)如何在方案/权限之外解释URL的其余部分。

因此,服务器有所有的纬度来解释一个URL,因为他们所做的是由其他人之前的帖子突出显示的。

RFC 3986第6.2.2.1节表示"Scheme和host不区分大小写,因此应该规范化为小写。例如,URI HTTP://www.EXAMPLE.com/等价于http://www.example.com/其他通用语法组件假定是区分大小写的,除非方案另有明确定义”;

服务器可以在内部规范化传递的URI,并为不同大小写的URI (/about//ABOUT/)提供相同的资源,使URI对用户来说不区分大小写。

有了官方的指导方针,有一个有趣的情况,人们应该考虑使用大写的整个url: QR码。

例如,https://example.com/不适合版本1 (21x21)的QR码,将需要更大的版本2 (25x25)的QR码。

而使用字母数字模式允许将HTTPS://EXAMPLE.COM/12345塞进较小的版本1!