[要望] Tritonn: NGRAM で記号を分割したい (Senna-dev 581) - senna

こんにちは。杉浦と申します。

今、Tritonn をバックエンドストレージに利用して Wiki を作って
いるのですが、ちょっと困った点があるので提案させてください。

私の勘違いであれば、その旨突っ込んで頂ければ幸いです :)

Wiki の（HTML整形前の）テキストを検索させたいと思ったので、
以下のように NGRAM な Fulltext Index を作りました。
text カラムにはあらかじめ日本語英語混じりで Wiki マークアップ
(MoinMoin風)されたテキストが入っています。

mysql> CREATE FULLTEXT INDEX text_ft USING NGRAM on wiki_texts (text); 

この状態で、日本語に関しては概ね期待したように検索出来ているのですが、
英語のキーワードではあまりヒットしませんでした。

インデックスのダンプの方法が分からないのですが、とりあえず SEN.l
に strings をかけてみた所、以下のようなものが出てきます。
(そしてこれを against に渡せばヒットします。)

wiki:another_page||
![wikilinks
'''todo:
"world
[wiki:guide/wikisyntax]
![[pluginname]]
[[embed(shot.png
![[pluginname(arg1,
arg2..)]]

Wiki 文法の都合上、キーワードになるような英字は記号と連接している
事がわりと多いのですが、記号ごと１ワードとして扱われている様です。

NGRAM のトークナイズの際に、スペースや日本語だけではなくて
是非とも記号類でも分割出来るようにならないでしょうか？
# SEN_INDEX_SPLIT_SYMBOL を USING で指定できるように
# なれば OK なのかな??

個人的には DELIMITED との差別化の意味でも、記号での分割は
ディフォルト ON でも良いのではないかと思います。
# 試していないのですが Mecab だと分解される？

どうかご検討下さいませ。

-- 
Tatsuki Sugiura   mailto:sugi****@osdn*****

senna

[Senna-dev 581] [要望] Tritonn: NGRAM で記号を分割したい