[pgsql-jp: 40764] textsearch_jaを使わない日本語全文検索

Yuichiro MASUI masui @ masuidrive.jp
2011年 5月 4日 (水) 03:05:14 JST


masuidriveと申します。よろしくお願いします。

現在、Herokuで動く翻訳ドキュメント管理システムを作っており、
その中で、日本語を含んだドキュメントの全文検索を実装しようと思っています。

HerokuのPostgreSQLでは、textsearch_jaを入れることが出来ないので、
Ruby側で日本語を分かち書きし、それをスペース区切りにしてデータ投入することで
標準のテキスト検索機能を使って日本語の全文検索を実現しようと思いました。

しかしうまく行かないので、手元のPgSQL 9.0で色々試したところ、パーサの時点で
日本語がblankとして認識されていることに気がつきました。

-- BEGIN OF 検証SQL
SET client_encoding TO 'UTF8';
SELECT alias, description, token FROM ts_debug('ルビー');
結果> "blank";"Space symbols";"ルビー"
-- END OF 検証SQL



ドキュメントを読んでいると、lc_ctypeを適切に設定していれば、aliasは
'word'になりそうな気がするのですが、何か分かる方が居ましたら
教えて頂けると幸いです。

なにとぞ、よろしくお願いします。

-- 
Yuichiro MASUI <masui @ masuidrive.jp>
http://masuidrive.jp



pgsql-jp メーリングリストの案内