下载
开发软件
账户
下载
开发软件
登录
我忘记用户名和密码了
创建帐户
语言
帮助
语言
帮助
×
登录
登录名
密码
×
我忘记用户名和密码了
简体中文翻译状态
类别:
软件
用户
PersonalForge
Magazine
Wiki
搜索
OSDN
>
浏览软件
>
Internet
>
WWW/HTTP
>
Indexing/Search
>
Ludia
>
Ticket List/Search
>
任务单 #11202
Ludia
描述
项目概述
开发人员仪表板
项目的网页
开发人员
Image Gallery
List of RSS Feeds
Activity
统计
历史
下载
List of Releases
统计
任务单
Ticket List
里程碑列表
Type List
组件列表
List of frequently used tickets/RSS
Submit New Ticket
文档
Wiki
FrontPage
Title index
Recent changes
Doc Mgr
列表文档
沟通
论坛
List of Forums
帮助论坛 (2)
公开讨论 (1)
Mailing Lists
list of ML
ludia-users
新闻
任务单 #11202
Ticket List
Submit New Ticket
RSS
類似分書検索の特徴語抽出の条件について
开放日期:
2007-10-26 19:29
最后更新:
2007-11-16 10:08
monitor
ON
OFF
报告人:
ssn
属主:
(无)
类型:
Bugs
状态:
开启
组件:
(无)
里程碑:
(无)
优先:
5 - Medium
严重性:
5 - Medium
处理结果:
无
文件:
无
Details
回复
類似分書検索の特徴語抽出の条件について
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。
任务单历史 (3/6 Histories)
Show older Histories
2007-10-31 09:01
Updated by:
co-saka
评论
回复
Logged In: YES
user_id=23292
ご報告ありがとうございます!!!
非常に助かります。
上記の件はsubversion上から取得できるSenna rev603を利用する
と、
正常な動作になります。
http://lists.sourceforge.jp/mailman/archives/senna-
dev/2007-October/000713.html
Subversionでの取得方法
http://qwik.jp/senna/Download.html
今後もバグなど見つかりましたら、
ご報告よろしくお願いします。
2007-11-09 11:57
Updated by:
ssn
评论
回复
Logged In: YES
user_id=31583
rev 610にて確認しました。
上記の異常ケース
>2.ヒットしないケース
については対応確認出来ました。
ありがとうございます。
しかし新たに問題が…
3.ヒットするケース
whre DATA @@ '*S1 "トラ トラ ライオン"'
とした場合
形態素の出現頻度は
トラ:2
ライオン:1
トラが特徴語となりヒットしないと思ったのですが
ヒットしてしまいます。
仕様的に(fulltextで"*S1"の場合)
"検索文字列の中で一番出現頻度の高い形態素一つを検索文字列と
する"
で認識あってますよね?
また同じ出現頻度の物があった場合
例
検索文字列(トラ トラ ライオン ライオン)
抽出後 (トラ ライオン)
で *S1 とした場合はどちらで検索しに行くのでしょうか?
追加質問で申し訳ありませんが
よろしくお願いします。
2007-11-13 08:42
Updated by:
co-saka
评论
回复
Logged In: YES
user_id=23292
> で認識あってますよね?
若干違います。検索文字列の中で出現頻度が高く、かつ、検索対
象の全レコードの中で出現頻度が低い(0は除く)形態素が特徴語
になります。
> 3.ヒットするケース
この場合は、検索対象が「ライオン、ゾウ」であるため、出現頻
度が0であるトラは特徴語になりません。
検索文字列が一般的な文章である場合に、検索文字列の中の出現
頻度だけで特徴語選出を行うと、「は」「の」などの助詞が特徴
語になってしまい、類似文書検索の意味がなくなってしまいま
す。
> また同じ出現頻度の物があった場合
rev610では、出現頻度が等しい場合は、先にインデックスに登録
された形態素が優先されます。しかし、これはrev610の仕様であ
るため、今後変わる可能性があります。
2007-11-13 11:44
Updated by:
ssn
评论
回复
Logged In: YES
user_id=31583
問題解決しました。ありがとうございます。
類似検索のロジックについてはマニュアル等に載っていないと思う
のですが、
何か別のドキュメントに書いてあるのでしょうか?
2007-11-16 08:57
Updated by:
co-saka
评论
回复
Logged In: YES
user_id=23292
類似検索のドキュメントについては、
下記リンクしかありません。
http://qwik.jp/senna/query.html
LudiaのREADMEにも書いたほうが良さそうですね。
2007-11-16 10:08
Updated by:
ssn
评论
回复
Logged In: YES
user_id=31583
回答ありがとうございます。
sennaのサイトに類似検索について多少書いてあるのは知っていた
のですが、
できれば
実際こういう検索をしたらこれがhitする
というような明示的な解説が欲しいと思いました。
たぶんこれはludiaではなくsennaへの要望ですので、場違い的な質
問申し訳ありません。
Attachment File List (
0
)
Attachment File List
No attachments
编辑
Add Comment
You are not logged in.
I you are not logged in, your comment will be treated as an anonymous post. »
登录名
Add Comment
预览
Submit
■環境
Redhat Enterprise Linux 4 U5
ludia 1.3.1 (mecab-0.96 ipadic-2.7.0 senna-1.0.9
postgresql 8.2.4
■設定
postgres.conf
・ludia.max_n_sort_result = 100000
・ludia.enable_seqscan = on
・ludia_sen_index_flags = 31
・ludia.max_n_index_cache = 16
・ludia.initial_n_segments = 2048
■DB
・TABLE : id int4,data text
・DATA : id = 1,data = (ライオン、ゾウ)
・INDEX : fulltext ※形態素
■現象
特徴語の抽出条件は文章中で出現頻度が高い語のはずなので
1.ヒットするケース
whre DATA @@ '*S1 "ライオン ライオン トラ"'
形態素の出現頻度は
ライオン:2
トラ:1
ライオンが特徴語となりヒットする
2.ヒットしないケース
whre DATA @@ '*S1 "トラ ライオン ライオン"'
形態素の出現頻度は
トラ:1
ライオン:2
ライオンが特徴語となりヒットする
と思ったのですがヒットしません。
私的な見解では文章の先頭の後が特徴語として扱われている
ように思えます。
よろしくお願いします。