[pgsql-jp: 37902] Re: EUC_JP を UTF8 に変換するには

Koichi Hyodo sio-0 @ rh.to
2007年 1月 6日 (土) 10:13:29 JST


兵藤です
くどくてごめんなさい…


> From: Morita Kazuro <morita @ yuki.ad.jp>
> Date: Fri, 5 Jan 2007 23:08:43 +0900
> Subject: [pgsql-jp: 37898] Re: EUC_JPをUTF8に変換するには
> 
> に追加すればいいと思うのですが、見つけた変換表にはドコモの特殊文字があり
> ません。自分で勝手にやってもまずい気がするのですが、SJIS→EUC のような
> 明快な変換のアルゴリズムはあるのでしょうか? そうでないのなら、どこかに
> 先例があるといいのですが。

いわゆる外字を含むSJIS符号化文字列をEUCに変換する一意のアルゴリズムや
変換表は存在しません。

機械的にSJIS-EUC変換するよく知られたアルゴリズムがあるのは事実ですが、
中間コードを経由する変換表を使ってSJIS-EUC変換する系もまた少なくない
ので、ある特定の規則でSJIS-EUC変換されることを、一般には期待できません。

IANAで定められたencodingであるSJIS,EUCは確かに一意に相互変換できる
かもしれませんが、
このSJISとはJISで定められたよく知られているアノ文字集合に限りますし、
厳密には変換できないアノ点は同一視するのが暗黙のルールだったりしたハズ
です。(たぶん)UTF8にするとき問題がでるでしょう。

特にEUCはバリエーションが非常に多いから要注意です (^^;





pgsql-jp メーリングリストの案内