[pgsql-jp: 39311] Re: 'encoding "EUC_JP" has no equivalent in "UTF8"' の理由

ITAGAKI Takahiro itagaki.takahiro @ oss.ntt.co.jp
2008年 3月 26日 (水) 15:20:31 JST


Tatsuo Ishii <ishii @ sraoss.co.jp> wrote:

> たとえば,SJISなりEUCなり,とにかくUTF-8ではない,クライアントエンコー
> ディングを使っているアプリがあるとします.何かデータを入力してDBに格納
> し,確認のために再びDBから読み出して表示する,といったごくごく基本的な
> 処理をしようとしたときに,いわゆるround trip conversionが正しくできな
> ければ,たちまち破綻します.

はい。確かにそこは重要ですし、難しいと思います。
マッピングに関しては、かなり気を使う必要があるというのは、同意です。
特に字形は同じなのにコード番号が異なる文字に対しては、正解が無いのかもしれません。


> カスタムCREATE CONVERSIONで対応してます
という話を非常に良く耳にするので、何かしら情報の共有ができればいいなと
思っています。ユーザの用途ごとに選択肢を用意しても良いはずです。
  ・ベンダなどに依存する、各種「方言」向けのもの。
  ・round trip conversion を行えるもの。
  ・ある程度字形の似た時に変換するもの。
  ・変換できない文字は ?, 〓, コード番号 などにしてしまうもの。

たとえ拡張可能な仕様だとしても、手間がかかっては意味がありません。
少なくとも、変換ライブラリのビルドが必要というのは、万人向けではないと感じます。




pgsql-jp メーリングリストの案内