Yusuke TABATA
yusuk****@w5*****
2006年 10月 4日 (水) 00:14:32 JST
田畑です。 実験的なアルゴリズムを入れたanthy-8133memmをリリースしました。 http://osdn.dl.sourceforge.jp/anthy/22051/anthy-8133memm.tar.gz 安定版は例によって4ヶ月サイクルで今月末に出ると思うのですが、 これは別ブランチという扱いです。 いくつかの機能をつぶして作り直しているところですので、意味不明な 結果が出ることも多く(今でも多いとつっこまれそうですが)常用は お勧めしません。 変換の例からパラメータを推定する機能を持っており、あんまり手間を かけずにチューニングができるようになる可能性があります。 anthy-8133memm/calctrans/corpus.?.txt のファイルの中に ごへんかんしたぶん |ごへんかんした|ぶん| という形式で色々な文を入れています。 ここに何とかして欲しい文を追加して、 $ ./proccorpus corups.?.txt > hoge $ ./calctrans hoge -o ../src-splitter/transition.h というふうにtransition.hを入れ替えてインストールすると、 そこそこの確率で誤変換が直るようです。 corups.?.txtの形式のファイルを送ってくれる人がいると嬉しいのですが、 実験段階なので努力を無駄にする可能性があります。やむをえない暇つぶしの 結果として作ってしまった場合などに送ってください。 この手法について理論的な説明もそのうちする必要があると思いますが (読みたい人います?)簡単な説明として、次のような理由で直らない誤変換が 残るので、まだまだ改善が必要です。 (1) 変換結果の特徴を十分に捉えられていない (2) その特徴を確率的に判断するだけの入力がない P.S. 近日中に引越しをする予定で、ネット環境もすぐには落ち着かない予定です。 いつも以上に反応が鈍くてもご容赦ください。 -- -- CHAOS AND CHANCE! Yusuke TABATA