Re: wikiのコーパス用例文収集 (Anthy-dev 3404) - Anthy

小町です。

At Mon, 05 Mar 2007 20:27:28 +0900,
Yusuke TABATA wrote:

> 情報ありがとうございます。実は既に知ってたりしますが(去年、東山さんに
> 教えてもらいました)MLに出してもらえると助かります。

あら、ご存じだったのですね。たしか去年の Google Summer of Code にかな
漢字変換エンジンの評価というのがあって、そのときに調べて見つけたような
気がします。

> > Anthy 使う人は全員が全員新聞記事のように書くわけではない(たとえばチャッ
> > トするときとか)ので、いろいろなスタイルの例文が集まるともっと適切に変
> > 換できるようになるんじゃないかと思います。
> 今のところ、IRCで周囲の人の発言の名詞を変えたり、コードのコメントを
> ついでに転記したりしてますが、確かに色々な所から取ってくる手法を
> 考えたいものですね。

どういうふうにこのデータを収拾しているかなのですが、一から文を入力して
いくよりは、かな漢字交じりの文は比較的手に入りやすいので、再配布可能な
かな漢字交じり文を見つけてきて CaboCha か KNP で解析して間違った読みを
手動で直す、という感じにすると楽かなと思います。

-- 
Mamoru KOMACHI <usata****@usata*****>, <mamor****@is*****>
Nara Institute of Science and Technology

Anthy

[Anthy-dev 3404] Re: wikiのコーパス用例文収集