[pgsql-jp: 34132] tsearch2を使った日本語全文検索

Junji TERAMOTO teramoto.junji @ lab.ntt.co.jp
2004年 10月 21日 (木) 11:10:26 JST


寺本と申します。

PostgreSQLのcontribモジュールに tsearch2 という欧文用全文検索モジュール
があるのですが、これを調べていたところ、欧文用というのは「スペースで区切
られた単語単位でのインデックス」であることに起因することがわかりました。

それじゃぁ分かち書きして日本語をスペース区切りしたものを放り込むとどうな
るのか?と思って実験してみたところ、わりとあっさり日本語も検索できること
もわかったので、kakasiを用いた分かち書き関数を用意し、tsearch2で日本語全
文検索ができるようにしてみました。

http://www.oss.ecl.ntt.co.jp/

の「Tsearch2J」にて公開しています。

# kakasiがGPLですので、GPLでの公開です。

全文検索環境構築のためのドキュメントもあわせて用意しましたので、ご興味有
る方は是非ご覧下さい。

-- 
Junji Teramoto / teramoto.junji @ lab.ntt.co.jp
Master Yoda : Don't think...feel...be as one with the Source.
              Help you, it will.



pgsql-jp メーリングリストの案内