[pgsql-jp: 26468] Re: Invalid EUC_JP character エラー対策

Hajime Lucky Okada paraiso @ luckyo.8m.com
2002年 6月 21日 (金) 18:23:22 JST


岡田です。 誠にありがとうございます。

Kazumasa Gotoh wrote:
> 
> この方針でよいと思うのですが、別に正規表現に拘る必要はないのでは?

それはその通りです。 ただ、より複雑なマッチングを出来るという意味で
正規表現という言葉を使っただけです。


> ようは、日本語EUC として不正な文字をはじいてゆくのですから、一文字づつ…
> というより実際には 1byte づつか… チェックしていけばよいでしょう。

この 1byte というのが曲者で、漢字の半バイトのコードで 確かに漢字コードの
一部として正しいものなのか 或いは化けものかの正確な区別に困っています。

文字列に通常の半角英数まで混じってくると・・更に複雑になって(?)
どうなんでしょう?


> ちょっと手元に資料がないので具体的なコード体系は示せませんけれども、
> なんとなれば PostgreSQL ではチェックを行っているのですから、
> PostgreSQL の当該処理部のソースを見るという方法もあるでしょう。

私も少しソースの中に潜ってみたのですが まだ見つかってません (^^;;






pgsql-jp メーリングリストの案内