XML,HTML和XHTML文档的有效内容types
XML,HTML和XHTML文档有哪些正确的内容types?
我需要写一个简单的抓取器,只抓取这些文件。
现在http://example.net/index.html可以用于例如一个JPEG文件,因为mod_rewrite,所以我需要检查来自响应头的内容types,并将其与允许的内容types列表进行比较。
我可以从哪里得到这样的清单?
HTML: text/html
,全面停止。
XHTML: application/xhtml+xml
,或者只有遵循HTML兼容性准则text/html
。 请参阅W3 媒体types注释 。
XML: text/xml
, application/xml
( RFC 2376 )。
还有许多基于XML的其他媒体types,例如application/rss+xml
或image/svg+xml
。 可以肯定的是,任何无法识别但在+xml
注册的结尾都是基于XML的。 有关以+xml
结尾的注册媒体types,请参阅IANA列表 。
(对于未注册的x-
types,所有投注都是closures的,但是希望+xml
能被尊重。)