[pgsql-jp: 38486] Sylpheed 全文検索アプリケーション公開

Tatsuo Ishii ishii @ sraoss.co.jp
2007年 6月 10日 (日) 20:26:16 JST


石井です.

Linux Worldで一部の方がご覧になっていると思いますが,

http://www.sraoss.jp/pipermail/sylpheed-jp/2007-June/000296.html

にあるように,PostgreSQLのtsearch2を使ってメールを全文検索できるアプリ
ケーションが公開されています.作ったのはSylpheed開発者の山本さんです.
# 今はうちの会社にいるので,こういうPostgreSQLとの連動ものもお手の物で
# す:-)
稼働環境はLinux中心ですが,Windowsでも動きます.

実際使ってみるとなかなか快適です.試しにpgsql-jp全部,本家PostgreSQL
MLなどのデータを87000件ほど放り込んでみましたが,全文検索でもほぼ一瞬
で終わります.

この状態でDBサイズは488MBほどあります.ちなみに元メールはmewのフォルダー
にあり,duで計ると860MBほどあります.インデックスがあるにも関わらず,
DBに取り込んだ方が小さくなるのですね:-)これは,元メールが1メール1ファ
イルになっていて,ファイルシステムの利用効率が悪いこと,PostgreSQLが圧
縮をかけてくれていることによると思います.少なくとも,namazuでindexす
るよりははるかに効率的ですし,検索も速いと思います.

このソフトは元々Sylpheedから発展したものなのでSylpheedのメールボックス
を取り込めるのは当然ですが,mewなど,1メール1ファイルになっているもの
なら何でも取り込めます.

ただ,メールの取り込みはそれなりに時間がかかります.tsearch2はインデッ
クスを構築する際にmaintenance_work_memを使うので,メール取り込みアプリ
(sylimport)を使う際に,

export PGOPTIONS='-c maintenance_work_mem=128MB'

などと設定して作業メモリを増やしておくと良いでしょう.

ちなみに,この状態で10578件をimportするのに7分21秒かかり,DBサイズは 
90MB でした(マシンはLet's Note CF-W5 Dual Core 2GB).もっと大量のメー
ルを取り込む場合は,できるだけ上記設定を大きくした方が良いでしょう.
--
Tatsuo Ishii
SRA OSS, Inc. Japan



pgsql-jp メーリングリストの案内