[Anthy-dev 3402] Re: wikiのコーパス用例文収集

Back to archive index

Yusuke TABATA yusuk****@w5*****
2007年 3月 5日 (月) 20:27:28 JST


田畑です。

Mamoru KOMACHI wrote:
> コーパスを用いて誤変換潰すってのは、いい方向だと思います。参考までに、
> 商用のものには使えないライセンスになっていますが、Microsoft Research
> IME Corpus というものが公開されています。
情報ありがとうございます。実は既に知ってたりしますが(去年、東山さんに
教えてもらいました)MLに出してもらえると助かります。


> このコーパスに入っているのは新聞記事だけですが、合計6000文のかなからか
> な漢字交じり文への変換例が収録されています。
性能測定用なのに今のanthy(600文)の10倍の規模というのがステキです。
プロ恐るべしという感じですね。

> 
> Anthy 使う人は全員が全員新聞記事のように書くわけではない(たとえばチャッ
> トするときとか)ので、いろいろなスタイルの例文が集まるともっと適切に変
> 換できるようになるんじゃないかと思います。
今のところ、IRCで周囲の人の発言の名詞を変えたり、コードのコメントを
ついでに転記したりしてますが、確かに色々な所から取ってくる手法を
考えたいものですね。

-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA



Anthy-dev メーリングリストの案内
Back to archive index