[pgsql-jp: 26465] Re: Invalid EUC_JP character エラー対策

Kazumasa Gotoh kgotoh @ cic-kk.co.jp
2002年 6月 21日 (金) 17:53:47 JST


From: Hajime Lucky Okada <paraiso @ luckyo.8m.com>
Date: Fri, 21 Jun 2002 15:29:57 +0900

> 2.Postgres からは離れるのですが、読み込ませる前に 例えば Perl の
>     フィルターをかけ文字化けの部分は削除してしまう、ということを考えた場合、
>     うまくこの「EUC文字ではない文字 又は この文字を含む文字列」だけに
>     マッチする正規表現はないか?

この方針でよいと思うのですが、別に正規表現に拘る必要はないのでは?

ようは、日本語EUC として不正な文字をはじいてゆくのですから、一文字づつ…
というより実際には 1byte づつか… チェックしていけばよいでしょう。

ちょっと手元に資料がないので具体的なコード体系は示せませんけれども、
なんとなれば PostgreSQL ではチェックを行っているのですから、
PostgreSQL の当該処理部のソースを見るという方法もあるでしょう。

=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
(株) セントラル情報センター
                             後藤和政    kgotoh @ cic-kk.co.jp



pgsql-jp メーリングリストの案内