[pgsql-jp: 39320] Re: 'encoding "EUC_JP" has no equivalent in "UTF8"' の理由

Tatsuo Ishii ishii @ sraoss.co.jp
2008年 3月 27日 (木) 09:46:02 JST


石井です.

> > カスタムCREATE CONVERSIONで対応してます
> という話を非常に良く耳にするので、何かしら情報の共有ができればいいなと
> 思っています。ユーザの用途ごとに選択肢を用意しても良いはずです。

うちではすでにやってます.

http://www.sraoss.co.jp/binaries/postgresql-full-text-search.tar.gz

"utf8_and_euc_jp_jis"を見てください.

>   ・ベンダなどに依存する、各種「方言」向けのもの。
>   ・round trip conversion を行えるもの。
>   ・ある程度字形の似た時に変換するもの。
>   ・変換できない文字は ?, 〓, コード番号 などにしてしまうもの。
> 
> たとえ拡張可能な仕様だとしても、手間がかかっては意味がありません。
> 少なくとも、変換ライブラリのビルドが必要というのは、万人向けではないと感じます。

私は問題はそこにあるのだとは思っていません.

あるユーザが自分の欲しいCONVERSIONが何であるかを判断できるためには,

- 文字集合やエンコーディングに関する基本的な知識がある
- 注目している文字コードのスペックに関して正しい知識を持っている
- 16進数とは何かを知っている:-)

が最低必要です.これらがなければ,そもそもどのマップが自分の用途に合っ
ているか判断することすらできません.

これは相当に高いハードルで,対応できるエンジニアも限られてきます.逆に
このレベルのエンジニアにとっては「変換ライブラリのビルドが必要」なんて
のは些細な問題だと思います.

具体例をあげると,上記URL中の README.utf8_and_euc_jp_jis.euc_jp を読ん
で理解できないとつらいのでは?ってことです.
--
Tatsuo Ishii
SRA OSS, Inc. Japan



pgsql-jp メーリングリストの案内