Mamoru KOMACHI
usata****@usata*****
2007年 3月 6日 (火) 05:43:24 JST
小町です。 At Mon, 05 Mar 2007 20:27:28 +0900, Yusuke TABATA wrote: > 情報ありがとうございます。実は既に知ってたりしますが(去年、東山さんに > 教えてもらいました)MLに出してもらえると助かります。 あら、ご存じだったのですね。たしか去年の Google Summer of Code にかな 漢字変換エンジンの評価というのがあって、そのときに調べて見つけたような 気がします。 > > Anthy 使う人は全員が全員新聞記事のように書くわけではない(たとえばチャッ > > トするときとか)ので、いろいろなスタイルの例文が集まるともっと適切に変 > > 換できるようになるんじゃないかと思います。 > 今のところ、IRCで周囲の人の発言の名詞を変えたり、コードのコメントを > ついでに転記したりしてますが、確かに色々な所から取ってくる手法を > 考えたいものですね。 どういうふうにこのデータを収拾しているかなのですが、一から文を入力して いくよりは、かな漢字交じりの文は比較的手に入りやすいので、再配布可能な かな漢字交じり文を見つけてきて CaboCha か KNP で解析して間違った読みを 手動で直す、という感じにすると楽かなと思います。 -- Mamoru KOMACHI <usata****@usata*****>, <mamor****@is*****> Nara Institute of Science and Technology