[pgsql-jp: 26470] Re: Invalid EUC_JP character エラー対策

ultraking @ anet.ne.jp ultraking @ anet.ne.jp
2002年 6月 22日 (土) 00:44:26 JST


こんにちは、桜井と申します。


>2.Postgres からは離れるのですが、読み込ませる前に 例えば Perl の
>     フィルターをかけ文字化けの部分は削除してしまう、ということを考えた場合、
>     うまくこの「EUC畢カ字ではない文字 又は この文字を含む文字列」だけに
>     マッチする正規表現はないか?

おっしゃる通り、EUC以外の文字チェックを行えばいいと思います。

EUC漢字のコード範囲は
http://www.hosibune.net/~mak/technical/kanji.shtml

の2.1 JIS X 0208に
第1・第2バイトとも0x21〜0x7E(EUCでは0xA1〜0xFE、以下略)ですが
と書かれているように
A1A1からFEFEまでとなります(ただしFFxxなどは存在しないので1BYTEづつ範囲チェ 
ックを行う必要があります)
確か2BYTE系半角カタカナもこの範囲のはずです、viで入力した後,od -x ファイルで 
確認してみてください。






pgsql-jp メーリングリストの案内