[pgsql-jp: 39320] Re: 'encoding "EUC_JP" has no equivalent in "UTF8"' の理由
Tatsuo Ishii
ishii @ sraoss.co.jp
2008年 3月 27日 (木) 09:46:02 JST
石井です.
> > カスタムCREATE CONVERSIONで対応してます
> という話を非常に良く耳にするので、何かしら情報の共有ができればいいなと
> 思っています。ユーザの用途ごとに選択肢を用意しても良いはずです。
うちではすでにやってます.
http://www.sraoss.co.jp/binaries/postgresql-full-text-search.tar.gz
"utf8_and_euc_jp_jis"を見てください.
> ・ベンダなどに依存する、各種「方言」向けのもの。
> ・round trip conversion を行えるもの。
> ・ある程度字形の似た時に変換するもの。
> ・変換できない文字は ?, 〓, コード番号 などにしてしまうもの。
>
> たとえ拡張可能な仕様だとしても、手間がかかっては意味がありません。
> 少なくとも、変換ライブラリのビルドが必要というのは、万人向けではないと感じます。
私は問題はそこにあるのだとは思っていません.
あるユーザが自分の欲しいCONVERSIONが何であるかを判断できるためには,
- 文字集合やエンコーディングに関する基本的な知識がある
- 注目している文字コードのスペックに関して正しい知識を持っている
- 16進数とは何かを知っている:-)
が最低必要です.これらがなければ,そもそもどのマップが自分の用途に合っ
ているか判断することすらできません.
これは相当に高いハードルで,対応できるエンジニアも限られてきます.逆に
このレベルのエンジニアにとっては「変換ライブラリのビルドが必要」なんて
のは些細な問題だと思います.
具体例をあげると,上記URL中の README.utf8_and_euc_jp_jis.euc_jp を読ん
で理解できないとつらいのでは?ってことです.
--
Tatsuo Ishii
SRA OSS, Inc. Japan
pgsql-jp メーリングリストの案内