[pgsql-jp: 39217] Re: 日本語全文検索 textsearch-ja のご紹介

H.Harada umi.tanuki @ gmail.com
2008年 2月 21日 (木) 08:31:38 JST


08/02/21 に Tatsuo Ishii<ishii @ sraoss.co.jp> さんは書きました:
> 石井です.
>
> > > 現時点でのインフラでは、効率的な N-gram ベースの検索は難しいです。
> > > 少なくとも、PostgreSQL 8.3 の素の全文検索や、
> > > この textsearch-ja のみでは実現できません。
> >
> > やはり無理ですか。
> > GINに位置情報を持てるように拡張される日を楽しみにするしかないですかね。
>
> GINに位置情報を持たせてn-gramを実現...というのは,どういうことを指して
> いるのかちょっと分かりませんが,素のPostgreSQLでn-gramを実装するのはさ
> ほど難しくないと思います.

http://archives.postgresql.org/pgsql-hackers/2007-05/msg00994.php
N-gramで任意の長さの文字列の部分一致を高速に検索するためには
転置インデックスの"post list"にItemPointerだけでなく部分文字列の出現位置を
記録する必要があると考えているのですが、もしかして何か勘違いしているかも。。。

「素のPostgreSQLで」というのは、インデックスではなく
転置インデックスと等価なテーブルを作成する、という意味でしょうか。

> 山口大学の事例が発表されています.

ちょっと探した限りでは詳しい実装が見つけられなかったのですが、
参考となるURL等ありましたらぜひ教えていただきたいです。



原田



pgsql-jp メーリングリストの案内