XML,HTML和XHTML文档的有效内容types

XML,HTML和XHTML文档有哪些正确的内容types?

我需要写一个简单的抓取器,只抓取这些文件。

现在http://example.net/index.html可以用于例如一个JPEG文件,因为mod_rewrite,所以我需要检查来自响应头的内容types,并将其与允许的内容types列表进行比较。

我可以从哪里得到这样的清单?

HTML: text/html ,全面停止。

XHTML: application/xhtml+xml ,或者只有遵循HTML兼容性准则text/html 。 请参阅W3 媒体types注释 。

XML: text/xmlapplication/xml ( RFC 2376 )。

还有许多基于XML的其他媒体types,例如application/rss+xmlimage/svg+xml 。 可以肯定的是,任何无法识别但在+xml注册的结尾都是基于XML的。 有关以+xml结尾的注册媒体types,请参阅IANA列表 。

(对于未注册的x-types,所有投注都是closures的,但是希望+xml能被尊重。)