TANAKA Masayuki
tanak****@gmail*****
2007年 6月 23日 (土) 10:17:47 JST
こんにちはたなかです > ふと思ったのですが、N-Gram対応ってどうなのでしょう? > Sennnaが純粋なN-Gramも使えるよとうたっているので > 大丈夫だとは思うのですが、 http://d.hatena.ne.jp/tasukuchan/20070323 上記のページが参考になると思います。 Sennaは対応していますが、MySQLバインディングは現在 対応していないのかな? Tritonn は利用していないのでわからないですが、昔のでは この辺の動作にひっかかります Ludia でも標準パラメーターだとひっかかると思います > 実際問題、辞書のメンテナンスなんてしていられないので、 > 少々高価なハードウェアを買ってでも純粋N-Gramを > 使いたいなあと思っております。 私のまわりの利用例でも、N-GRAMが多いと思います ノイズよりも検索もれの方がいやですね あとはPostgreSQLの利点を生かしてCE(継承)を使う 手もあると思います 月や年ごとのテーブルを分割すると、結構パフォーマンスが あがります ※検証済み(年2万件のPDFを20年分ぐらいだったような、、、) ただし親を選択して、全体に対して検索しようとすると 同時インデックス利用制限で落ちます(涙) ※検証済み 頻繁に検索されるテーブルは通常のインデックスサイズで 古いデータとかは小さくするなどすればいいのかもしれない ですね。。。 ※すみません、検証できていません たなか