charset と encoding
どういう経緯でそうなったかは知らないが、現状 Web ページのエンコーディングをブラウザに通知するには HTTP レスポンスヘッダの Content-type に
Content-type: text/html; charset=utf-8
といった感じに、エンコーディングを指定することになっている。
で、以前から疑問なんだが、なんで encoding じゃなくて charset なんだろう。いや、だって EUC-JP も MS932/Shift-JIS も ISO-2022-JP もみんな JISX 0208 の上のエンコーディング方式な訳で、charset は一緒じゃん、とか思うのだ。
それとも、charset と encoding をひとまとめにして charset と呼称しているんだろうか?それはそれでややこしいような。
いや、単に1つの文字集合に対して複数のエンコーディングが存在する日本の方が異常なのか。でも、Unicode 化が進むとすれば charset というパラメータ名は現実から乖離していくことになるなぁ。