[pgsql-jp: 39641] Re: 7.4から8.3へのバージョンアップグレード

2008年 11月 12日 (水) 14:38:33 JST

板垣さん、ご返答を感謝します！

2008/11/11 ITAGAKI Takahiro <itagaki.takahiro ＠ oss.ntt.co.jp>:

> PostgreSQL では UNICODE = UTF-8 の意味で、両方とも使えます。
> 通常は特に気にする必要は無いと思いますが、もし既に UTF-8 として
> 不正な文字が混入していると、ロード時にエラーになるかもしれません。
> （以前と比べて、エラーチェックが厳密になっています。）
>
UNICODE = (必ずしも)UTF-8ではなく、
UNICODE = 「書き込まれたデータをそのまま受け入れる」のようなものと私は理解しています。(間違ってる可能性有りですが！)
どのエンコーディングで書き込み、読み出すかは使い手(アプリケーション)の責任であるというようなことでだと。。。
例えばアプリケーションがUNICODEで作られたDBに一貫してEUC-JPで書き込みEUC-JPで読み出していれば問題はないはずだと。

。。。うーん、ということは、UNICODEで作られたDBをUTF-8に移行することで得られるメリットというのはあるのでしょうか？。。。
ちょっと混乱して参りました。

弊社のコードは「一貫して」UTF-8でデータを書き込み読み込んでいるはずなのですが、いくつかのDBがロード時にエラーになったので「一貫して」いう前提がちょっとあやしい確率有りです。。。手作業で修正しないといけないのかと心配しているところです。


MIho Ishikura
-----