[pgsql-jp: 26468] Re: Invalid EUC_JP character エラー対策
Hajime Lucky Okada
paraiso @ luckyo.8m.com
2002年 6月 21日 (金) 18:23:22 JST
岡田です。 誠にありがとうございます。
Kazumasa Gotoh wrote:
>
> この方針でよいと思うのですが、別に正規表現に拘る必要はないのでは?
それはその通りです。 ただ、より複雑なマッチングを出来るという意味で
正規表現という言葉を使っただけです。
> ようは、日本語EUC として不正な文字をはじいてゆくのですから、一文字づつ…
> というより実際には 1byte づつか… チェックしていけばよいでしょう。
この 1byte というのが曲者で、漢字の半バイトのコードで 確かに漢字コードの
一部として正しいものなのか 或いは化けものかの正確な区別に困っています。
文字列に通常の半角英数まで混じってくると・・更に複雑になって(?)
どうなんでしょう?
> ちょっと手元に資料がないので具体的なコード体系は示せませんけれども、
> なんとなれば PostgreSQL ではチェックを行っているのですから、
> PostgreSQL の当該処理部のソースを見るという方法もあるでしょう。
私も少しソースの中に潜ってみたのですが まだ見つかってません (^^;;
pgsql-jp メーリングリストの案内