Taku Kudo
taku****@chase*****
2006年 11月 6日 (月) 17:21:10 JST
くどうです > chasenのほうでは出力フォーマットを > > -F "%M\t%H\t%Y1\n" 「基本形 品詞 読み(基本形)」 > > としていたものをmecabでは > > -F "%m\t%H\n" 「表層文字列 素性 (品詞, 活用, 読み) 等のCSV」 > > としてプログラム側で分解してchasenのものに合わせようとしています. > > しかし,基本形はありますが,基本形の読みがフォーマットにはないようなのですが > こちらは通常のフォーマットの指定では取得できないのでしょうか? 盲点でした。現状では、基本形の読みは取得できません。 辞書の作成時に基本形の読みは作らず、すべて活用を展開した形での読みしか 作らないからです。 幸いにも mecab の辞書はCSVであればなんでもつっこめるので、自分で ipadic から基本形の読みを取り出して、mecab の CSV の最後のカラムに 突っ込めば情報を取り出せるようになります。