OSDN > 浏览软件 > Internet > WWW/HTTP > Indexing/Search > Ludia > Ticket List/Search > 任务单 #11202

Ludia

任务单 #11202
Ticket List Submit New Ticket RSS

類似分書検索の特徴語抽出の条件について

开放日期: 2007-10-26 19:29 最后更新: 2007-11-16 10:08

monitor

报告人:

ssn

属主:

(无)

类型:

Bugs

状态:

开启

组件:

(无)

里程碑:

(无)

优先:

5 - Medium

严重性:

5 - Medium

处理结果:

无

文件:

无

Details

類似分書検索の特徴語抽出の条件について

■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4

■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048

■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素

■現象

特徴語の抽出条件は文章中で出現頻度が高い語のはずなので

１．ヒットするケース
whre DATA @@ '*S1 "ライオン　ライオン　トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする

２．ヒットしないケース
whre DATA @@ '*S1 "トラ　ライオン　ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。

私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。

よろしくお願いします。

任务单历史 (3/6 Histories)

2007-10-31 09:01 Updated by: co-saka

Logged In: YES
user_id=23292

ご報告ありがとうございます！！！
非常に助かります。

上記の件はsubversion上から取得できるSenna rev603を利用する
と、
正常な動作になります。
http://lists.sourceforge.jp/mailman/archives/senna-
dev/2007-October/000713.html

Subversionでの取得方法
http://qwik.jp/senna/Download.html

今後もバグなど見つかりましたら、
ご報告よろしくお願いします。

2007-11-09 11:57 Updated by: ssn

Logged In: YES
user_id=31583

rev 610にて確認しました。

上記の異常ケース
＞２．ヒットしないケース
については対応確認出来ました。
ありがとうございます。

しかし新たに問題が…
３．ヒットするケース
whre DATA @@ '*S1 "トラ　トラ　ライオン"'
とした場合
形態素の出現頻度は
トラ:2
ライオン:1
トラが特徴語となりヒットしないと思ったのですが
ヒットしてしまいます。

仕様的に(fulltextで"*S1"の場合)
"検索文字列の中で一番出現頻度の高い形態素一つを検索文字列と
する"
で認識あってますよね？

また同じ出現頻度の物があった場合
例
検索文字列(トラ　トラ　ライオン　ライオン)
抽出後 (トラ　ライオン)
で *S1　とした場合はどちらで検索しに行くのでしょうか？

追加質問で申し訳ありませんが

よろしくお願いします。

2007-11-13 08:42 Updated by: co-saka

Logged In: YES
user_id=23292

> で認識あってますよね？
若干違います。検索文字列の中で出現頻度が高く、かつ、検索対
象の全レコードの中で出現頻度が低い（0は除く）形態素が特徴語
になります。
> ３．ヒットするケース
この場合は、検索対象が「ライオン、ゾウ」であるため、出現頻
度が0であるトラは特徴語になりません。

検索文字列が一般的な文章である場合に、検索文字列の中の出現
頻度だけで特徴語選出を行うと、「は」「の」などの助詞が特徴
語になってしまい、類似文書検索の意味がなくなってしまいま
す。

> また同じ出現頻度の物があった場合
rev610では、出現頻度が等しい場合は、先にインデックスに登録
された形態素が優先されます。しかし、これはrev610の仕様であ
るため、今後変わる可能性があります。

2007-11-13 11:44 Updated by: ssn

Logged In: YES
user_id=31583

問題解決しました。ありがとうございます。

類似検索のロジックについてはマニュアル等に載っていないと思う
のですが、
何か別のドキュメントに書いてあるのでしょうか？

2007-11-16 08:57 Updated by: co-saka

Logged In: YES
user_id=23292

類似検索のドキュメントについては、
下記リンクしかありません。
http://qwik.jp/senna/query.html
LudiaのREADMEにも書いたほうが良さそうですね。

2007-11-16 10:08 Updated by: ssn

Logged In: YES
user_id=31583

回答ありがとうございます。

sennaのサイトに類似検索について多少書いてあるのは知っていた
のですが、
できれば
実際こういう検索をしたらこれがhitする
というような明示的な解説が欲しいと思いました。

たぶんこれはludiaではなくsennaへの要望ですので、場違い的な質
問申し訳ありません。

Attachment File List

No attachments

Ludia

任务单 #11202
Ticket List Submit New Ticket RSS

類似分書検索の特徴語抽出の条件について

开放日期: 2007-10-26 19:29 最后更新: 2007-11-16 10:08

monitor

Details

任务单历史 (3/6 Histories)

2007-10-31 09:01 Updated by: co-saka

评论

2007-11-09 11:57 Updated by: ssn

评论

2007-11-13 08:42 Updated by: co-saka

评论

2007-11-13 11:44 Updated by: ssn

评论

2007-11-16 08:57 Updated by: co-saka

评论

2007-11-16 10:08 Updated by: ssn

评论

Attachment File List

编辑

Ludia

任务单 #11202 Ticket List Submit New Ticket RSS

類似分書検索の特徴語抽出の条件について 开放日期: 2007-10-26 19:29 最后更新: 2007-11-16 10:08 monitor ON OFF

Details 回复

任务单历史 (3/6 Histories) Show older Histories

2007-10-31 09:01 Updated by: co-saka

评论 回复

2007-11-09 11:57 Updated by: ssn

评论 回复

2007-11-13 08:42 Updated by: co-saka

评论 回复

2007-11-13 11:44 Updated by: ssn

评论 回复

2007-11-16 08:57 Updated by: co-saka

评论 回复

2007-11-16 10:08 Updated by: ssn

评论 回复

Attachment File List

编辑

任务单 #11202
Ticket List Submit New Ticket RSS

類似分書検索の特徴語抽出の条件について

开放日期: 2007-10-26 19:29 最后更新: 2007-11-16 10:08

monitor

Details

任务单历史 (3/6 Histories)

评论

评论

评论

评论

评论

评论