[Senna-dev 581] [要望] Tritonn: NGRAM で記号を分割したい

Back to archive index

sugi****@valin***** sugi****@valin*****
2007年 4月 25日 (水) 21:59:34 JST


こんにちは。杉浦と申します。

今、Tritonn をバックエンドストレージに利用して Wiki を作って
いるのですが、ちょっと困った点があるので提案させてください。

私の勘違いであれば、その旨突っ込んで頂ければ幸いです :)



Wiki の(HTML整形前の)テキストを検索させたいと思ったので、
以下のように NGRAM な Fulltext Index を作りました。
text カラムにはあらかじめ日本語英語混じりで Wiki マークアップ
(MoinMoin風)されたテキストが入っています。

mysql> CREATE FULLTEXT INDEX text_ft USING NGRAM on wiki_texts (text); 

この状態で、日本語に関しては概ね期待したように検索出来ているのですが、
英語のキーワードではあまりヒットしませんでした。

インデックスのダンプの方法が分からないのですが、とりあえず SEN.l
に strings をかけてみた所、以下のようなものが出てきます。
(そしてこれを against に渡せばヒットします。)

wiki:another_page||
![wikilinks
'''todo:
"world
[wiki:guide/wikisyntax]
![[pluginname]]
[[embed(shot.png
![[pluginname(arg1,
arg2..)]]

Wiki 文法の都合上、キーワードになるような英字は記号と連接している
事がわりと多いのですが、記号ごと1ワードとして扱われている様です。

NGRAM のトークナイズの際に、スペースや日本語だけではなくて
是非とも記号類でも分割出来るようにならないでしょうか?
# SEN_INDEX_SPLIT_SYMBOL を USING で指定できるように
# なれば OK なのかな??

個人的には DELIMITED との差別化の意味でも、記号での分割は
ディフォルト ON でも良いのではないかと思います。
# 試していないのですが Mecab だと分解される?

どうかご検討下さいませ。

-- 
Tatsuki Sugiura   mailto:sugi****@osdn*****




Senna-dev メーリングリストの案内
Back to archive index