XML、 HTML 和 XHTML 文档的有效内容类型

XML、 HTML 和 XHTML 文档的正确内容类型是什么?

我需要编写一个只获取这类文件的简单爬虫程序。

现在,由于 mod _ rewrite 的原因,http://example.net/index.html可以提供例如 JPEG 文件的服务,所以我需要检查响应头中的内容类型,并将其与允许的内容类型列表进行比较。

我从哪里可以得到这样的名单?

337773 次浏览

HTML: text/html,句号。

XHTML: application/xhtml+xml,或者只有遵循 HTML 兼容性指导原则时才能使用 text/html。参见 W3媒体类型注释

XML: text/xmlapplication/xml(RFC 2376).

还有许多其他基于 XML 的媒体类型,例如 application/rss+xmlimage/svg+xml。可以肯定的是,+xml中任何未识别但注册的结尾都是基于 XML 的。有关以 +xml结尾的注册媒体类型,请参见 IANA 名单

(对于未注册的 x-类型,所有的赌注都取消了,但你希望 +xml会受到尊重。)