[pgsql-jp: 40761] Re: textsearch-jaの全文検索での検索クエリについて

mituhiro inaba mit @ inaba.ws
2011年 5月 2日 (月) 16:03:04 JST


Itagakiさん、こんにちは、
ご説明ありがとうございました。

そうでしたか、了解しました。

現在、どのようにすれば強調も生かして
体裁よく表示できるか検討しているところです。

お礼まで。

稲葉光宏 mit @ inaba.ws http://inaba.ws

-----Original Message----- 
From: Itagaki Takahiro
Sent: Monday, May 02, 2011 10:18 AM
To: PostgreSQL Japanese Mailing List
Subject: [pgsql-jp: 40758] Re:textsearch-jaの全文検索での検索クエリについて

2011/5/2 mituhiro inaba <mit @ inaba.ws>:
> 検索結果の文章を表示させ、
> その文章中の当該キーワードを
> ts_headline関数を使って強調表示しようとする時、
> キーワードの強調は希望通りにされるのですが、
> 元の文章の改行などの文章体裁がすべて取り除かれてしまいます。
> ただしこれは仕様や制限による既定の動作とも思われます。

改行を取り除くのは仕様です。

日本語文書では、単語の間にも改
行が入ることがあります。 (↑な感じで)
ところが、単語の解析を行う MeCab は改行で単語を区切って
しまうため、textsearch_ja 側で事前に改行を取り除いています。

一方、英語文書の場合はスペースの代わりに改行を使うため、
半角文字の前後の改行は、スペースに置き換えて保持します。
(日本語文書内に、英語の文書混ざることを想定)

もし改行が保持できるとすれば後者の英語文書の場合のみですが、
改行を保持するか否かが文書に依存するのも一貫性が無いので、
今のところは「すべての改行を取り除く」で統一しています。

-- 
Itagaki Takahiro 




pgsql-jp メーリングリストの案内