[pgsql-jp: 25277] Re: Unicode マッピングの問題
Tatsuo Ishii
t-ishii @ sra.co.jp
2002年 3月 13日 (水) 22:29:30 JST
石井です.
> で、README.mb.jpを再度確認すると。
> PostgreSQLの持っていたEUC_JP<->SJISの仕様つまり、PostgreSQL
> におけるEUC_JPの文字はJISX0201+JISX0208+JISX0212に加えてこれ
> らに無いCP932の文字が追加になっているという内容なのです。
「CP932の文字が追加」というのはちょっと実際と違うと思います.たとえば,
i-modeのいわゆる「絵文字」はCP932にはたぶん含まれていませんが,
PostgreSQLの実装ではそれも取込んでいます.
> だったら
> PostgreSQLのEUC_JPのマッピングを作る際、JIS0201.TXTとJIS0208.TXT
> とJIS0212.TXTに加えCP932.TXTも取り込めばよい事になりますね。
> このように、Unicodeのマッピングはいじらずに、PostgreSQL側の仕様を
> トコトン洗い出した方法もあります。
> これならUnicodeの仕様通りにPostgreSQLのこれまでのEUC_JPの
> データベースのデータをUnicodeのデータベースに移しても情報資産を
> 正しく利用できるわけです。
ですから,i-modeの「絵文字」が元のEUC_JPに含まれていたら,Unicodeのデー
タベースにはこの部分は移せなくなるはずです.
というわけで,Unicode <--> 他のエンコーディングのラウンドトリップ変換
はどうやっても完全ではないわけです.
--
Tatsuo Ishii
pgsql-jp メーリングリストの案内