[pgsql-jp: 25277] Re: Unicode マッピングの問題

Tatsuo Ishii t-ishii @ sra.co.jp
2002年 3月 13日 (水) 22:29:30 JST


石井です.

> で、README.mb.jpを再度確認すると。
> PostgreSQLの持っていたEUC_JP<->SJISの仕様つまり、PostgreSQL
> におけるEUC_JPの文字はJISX0201+JISX0208+JISX0212に加えてこれ
> らに無いCP932の文字が追加になっているという内容なのです。

「CP932の文字が追加」というのはちょっと実際と違うと思います.たとえば,
i-modeのいわゆる「絵文字」はCP932にはたぶん含まれていませんが,
PostgreSQLの実装ではそれも取込んでいます.

> だったら
> PostgreSQLのEUC_JPのマッピングを作る際、JIS0201.TXTとJIS0208.TXT
> とJIS0212.TXTに加えCP932.TXTも取り込めばよい事になりますね。
> このように、Unicodeのマッピングはいじらずに、PostgreSQL側の仕様を
> トコトン洗い出した方法もあります。
> これならUnicodeの仕様通りにPostgreSQLのこれまでのEUC_JPの
> データベースのデータをUnicodeのデータベースに移しても情報資産を
> 正しく利用できるわけです。

ですから,i-modeの「絵文字」が元のEUC_JPに含まれていたら,Unicodeのデー
タベースにはこの部分は移せなくなるはずです.

というわけで,Unicode <--> 他のエンコーディングのラウンドトリップ変換
はどうやっても完全ではないわけです.
--
Tatsuo Ishii



pgsql-jp メーリングリストの案内