处理安全性和避免使用用户输入 URL 的 XSS 的最佳方法

小开

允许 URL 和允许 JavaScript 是两件不同的事情。

小开

不把它们显示为链接怎么样? 只用文本。

再加上一个警告，让你自己承担风险可能就足够了。

附加 -参见我是否应该清理宿主 CMS 的 HTML 标记？关于消毒用户输入的讨论

小开

如果您不指定应用程序的语言，那么我假设您使用的是 ASP.NET，为此您可以使用 Microsoft 反跨站点脚本库

它非常容易使用，所有您需要的是一个包含，这就是它:)

既然说到这个话题，为什么不读一读安全 Web 应用程序设计指南呢

如果有其他语言..。如果有一个 ASP.NET 库，必须也可用于其他类型的语言(PHP、 Python、 ROR 等)

小开

最佳答案

如果您认为 URL 不能包含代码，请三思！

Https://owasp.org/www-community/xss-filter-evasion-cheatsheet

看看这个，哭吧。

下面是我们在 Stack Overflow 中的操作方法:

/// <summary>
/// returns "safe" URL, stripping anything outside normal charsets for URL
/// </summary>
public static string SanitizeUrl(string url)
{
return Regex.Replace(url, @"[^-A-Za-z0-9+&@#/%?=~_|!:,.;\(\)]", "");
}

小开

只要在输出链接时对它们进行 HTMLEncode 即可。确保您不允许 javascript:链接。(最好有一个可接受的协议白名单，例如 http、 https 和 mailto。)

小开

使链接“安全”的过程应该经过三到四个步骤:

取消转义/重新编码给定的字符串(RSnake 在译自: 美国《科学》杂志网站(http://ha.ckers.org/xss.html) http://ha.ckers.org/xss.html : 记录了许多使用转义和 UTF 编码的技巧)。
清理链接: 正则表达式是一个很好的开始-确保截断字符串或扔掉它，如果它包含一个“(或任何你用来关闭输出中的属性) ; 如果你做的链接只是作为对其他信息的引用，你也可以强制协议在这个过程的最后-如果第一个冒号之前的部分不是“ http”或“ https”，然后附加“ http://”到开始。这允许你从不完整的输入中创建可用的链接，用户可以在浏览器中输入这些链接，并给你最后一次机会，试图阻止某人试图偷偷进入的任何恶作剧。
检查结果是否是格式良好的 URL (protocol://host.domain [ : port ][/path ][/[ file ]][ ? queryField = queryValue ][ # Anchor])。
可能会根据站点黑名单检查结果，或者尝试通过某种恶意软件检查器获取结果。

如果安全是优先考虑的问题，我希望用户能够原谅这个过程中的一些偏执，即使它最终丢弃了一些安全链接。

小开

使用库，例如 OWASP-ESAPI:

阅读以下内容:

例如:

$url = "http://stackoverflow.com"; // e.g., $_GET["user-homepage"];
$esapi = new ESAPI( "/etc/php5/esapi/ESAPI.xml" ); // Modified copy of ESAPI.xml
$sanitizer = ESAPI::getSanitizer();
$sanitized_url = $sanitizer->getSanitizedURL( "user-homepage", $url );

另一个例子是使用一个内置函数，PHP 的 Filter _ var函数就是一个例子:

$url = "http://stackoverflow.com"; // e.g., $_GET["user-homepage"];
$sanitized_url = filter_var($url, FILTER_SANITIZE_URL);

使用 filter_var 允许 javascript 调用，并过滤掉既不是 http也不是 https的模式。使用消毒剂可能是最好的选择。

还有一个例子是来自 WordPress的代码:

Http://core.trac.wordpress.org/browser/tags/3.5.1/wp-includes/formatting.php#l2561

此外，由于没有办法知道 URL 链接在哪里(例如，它可能是一个有效的 URL，但 URL 的内容可能是恶作剧) ，谷歌有一个安全浏览 API，你可以调用:

Https://developers.google.com/safe-browsing/lookup_guide

为卫生设施编写自己的正则表达式是有问题的，原因有以下几个:

除非你是 Jon Skeet，否则代码会出错。
现有的 API 背后有许多小时的审查和测试。
现有的 URL 验证 API 考虑国际化。
现有的 API 将随着新标准的出现而不断更新。

需要考虑的其他问题:

你们允许什么方案(file:///和 telnet://是否可以接受) ？
您希望对 URL 的内容设置哪些限制(恶意软件 URL 是否可以接受) ？

小开

您可以使用十六进制代码来转换整个 URL 并将其发送到您的服务器。这样客户第一眼就看不懂内容。在读取内容之后，您可以解码内容 URL = ？然后发到浏览器上。

小开

在我用 JavaScript 编写的项目中，我使用这个 regex 作为白名单:

 url.match(/^((https?|ftp):\/\/|\.{0,2}\/)/)

唯一的限制是你需要把。/在同一目录下的文件，但我认为我可以忍受。

小开

对于 Python 爱好者，试试 Scrapy 的 W3lib。

OWASP ESAPI 在 Python 2.7 之前就存在了，并在现已不存在的谷歌代码上存档。

小开

使用正则表达式来防止 XSS 漏洞变得越来越复杂，因此很难随着时间的推移进行维护，同时可能会留下一些漏洞。使用正则表达式进行 URL 验证在某些情况下很有帮助，但最好不要与漏洞检查混在一起。

解决方案可能是使用编码器(如 AntiXssEncoder.UrlEncode)对 URL 的查询部分进行编码，对其余部分使用 QueryBuilder:

    public sealed class AntiXssUrlEncoder
{
public string EncodeUri(Uri uri, bool isEncoded = false)
{
// Encode the Query portion of URL to prevent XSS attack if is not already encoded. Otherwise let UriBuilder take care code it.
var encodedQuery = isEncoded ? uri.Query.TrimStart('?') : AntiXssEncoder.UrlEncode(uri.Query.TrimStart('?'));
var encodedUri = new UriBuilder
{
Scheme = uri.Scheme,
Host = uri.Host,
Path = uri.AbsolutePath,
Query = encodedQuery.Trim(),
Fragment = uri.Fragment
};
if (uri.Port != 80 && uri.Port != 443)
{
encodedUri.Port = uri.Port;
}


return encodedUri.ToString();
}


public static string Encode(string uri)
{
var baseUri = new Uri(uri);
var antiXssUrlEncoder = new AntiXssUrlEncoder();
return antiXssUrlEncoder.EncodeUri(baseUri);
}
}

您可能需要包括白名单，以排除编码中的一些字符。这可能会对特定的网站有所帮助。 HTML 对呈现 URL 的页面进行编码也是您需要考虑的另一件事情。

请注意，编码 URL 可能会中断网页参数篡改，因此编码后的链接可能会出现不正常的情况。另外，还需要注意双重编码

附注: AntiXssEncoder.UrlEncode最好命名为 AntiXssEncoder.EncodeForUrl，以便更具描述性。基本上，它为 URL 编码一个字符串，而不是为给定的 URL 编码并返回可用的 URL。