[pgsql-jp: 26470] Re: Invalid EUC_JP character エラー対策
ultraking @ anet.ne.jp
ultraking @ anet.ne.jp
2002年 6月 22日 (土) 00:44:26 JST
こんにちは、桜井と申します。
>2.Postgres からは離れるのですが、読み込ませる前に 例えば Perl の
> フィルターをかけ文字化けの部分は削除してしまう、ということを考えた場合、
> うまくこの「EUC畢カ字ではない文字 又は この文字を含む文字列」だけに
> マッチする正規表現はないか?
おっしゃる通り、EUC以外の文字チェックを行えばいいと思います。
EUC漢字のコード範囲は
http://www.hosibune.net/~mak/technical/kanji.shtml
の2.1 JIS X 0208に
第1・第2バイトとも0x21〜0x7E(EUCでは0xA1〜0xFE、以下略)ですが
と書かれているように
A1A1からFEFEまでとなります(ただしFFxxなどは存在しないので1BYTEづつ範囲チェ
ックを行う必要があります)
確か2BYTE系半角カタカナもこの範囲のはずです、viで入力した後,od -x ファイルで
確認してみてください。
pgsql-jp メーリングリストの案内