sugi****@valin*****
sugi****@valin*****
2007年 4月 25日 (水) 21:59:34 JST
こんにちは。杉浦と申します。 今、Tritonn をバックエンドストレージに利用して Wiki を作って いるのですが、ちょっと困った点があるので提案させてください。 私の勘違いであれば、その旨突っ込んで頂ければ幸いです :) Wiki の(HTML整形前の)テキストを検索させたいと思ったので、 以下のように NGRAM な Fulltext Index を作りました。 text カラムにはあらかじめ日本語英語混じりで Wiki マークアップ (MoinMoin風)されたテキストが入っています。 mysql> CREATE FULLTEXT INDEX text_ft USING NGRAM on wiki_texts (text); この状態で、日本語に関しては概ね期待したように検索出来ているのですが、 英語のキーワードではあまりヒットしませんでした。 インデックスのダンプの方法が分からないのですが、とりあえず SEN.l に strings をかけてみた所、以下のようなものが出てきます。 (そしてこれを against に渡せばヒットします。) wiki:another_page|| ![wikilinks '''todo: "world [wiki:guide/wikisyntax] ![[pluginname]] [[embed(shot.png ![[pluginname(arg1, arg2..)]] Wiki 文法の都合上、キーワードになるような英字は記号と連接している 事がわりと多いのですが、記号ごと1ワードとして扱われている様です。 NGRAM のトークナイズの際に、スペースや日本語だけではなくて 是非とも記号類でも分割出来るようにならないでしょうか? # SEN_INDEX_SPLIT_SYMBOL を USING で指定できるように # なれば OK なのかな?? 個人的には DELIMITED との差別化の意味でも、記号での分割は ディフォルト ON でも良いのではないかと思います。 # 試していないのですが Mecab だと分解される? どうかご検討下さいませ。 -- Tatsuki Sugiura mailto:sugi****@osdn*****