Yusuke TABATA
yusuk****@w5*****
2007年 3月 9日 (金) 00:22:06 JST
田畑です。 UTUMI Hirosi wrote: > 1. 変換エンジンのバグを特定しにくくなる? > 例文を増やすと > http://lists.sourceforge.jp/mailman/archives/anthy-dev/2007-March/003391.html > >>「〜ない + のが」な変換がうまくできなくなってしまいました. これ、実は付属語のパターンの変更ミスで例文とは関係ない話でした。 例文を使うのは色々な選択肢に対して優先順位を付けるためです。 (誤変換にならない確率が高い順にならべます) > 例えば「うたないのが」や「にげないのが」といった例文が > 登録されているとその文章は適切に変換されますが、 > 登録されていない文章では「〜ない + のが」の変換が > うまくできません。 なので、確率が0になっても低い優先度で出ますので大丈夫です。 あと、そもそも優先順位を付ける部分は以前のHMMにしても、 一時的に使ってたMEMMにしても、今の例文ベースのでも動作を 読むのは難しいと思います。 > 2. 表記の揺れ > 「美しい人が」と「きれいなひとが」という例文があると、 > 「ひと」が「ひと」と変換されたり「人」と変換されたりして > 表記が揺らぐ気がします。 理想的には1回目は単にありそうなのが出て、2回目以降は 学習によって以前に確定したのが出れば良いですね。 新聞や雑誌みたいに表記の基準を持って例文を集めるのも 手ですが、現実的ではなさそうです。 -- -- CHAOS AND CHANCE! Yusuke TABATA