Yusuke TABATA
yusuk****@w5*****
2005年 10月 13日 (木) 01:27:41 JST
田畑です。 anthy-7013以降をコンパイルするとsrc-util/のディレクトリに anthy-morphological-analyzerというコマンドができます。 普通に使うことを想定していないので、make installしても インストールされませんが、使うためには他のファイルをmake install しておく必要があります。 標準入力か引数で指定したファイルから1行ずつ読み込んで逆変換に かけて、形態素解析の結果を出力します。 例えば、次のような出力が得られます。 ------ここから----- |本日は|良い|天気ですが、|そんな|日でも|通勤|時間が|長いのは|辛いです。 本日は(ほんじつは:(,57596,Nk,0)22,636 ,本日は:(gN,0,-,0)2 ,本日ハ:(N,0, -,0)1 ,): 良い(よい:(1,257367,At,0)81,938 ,いい:(1,257367,At,0)79,832 ,良い:(N,0, -,0)2 ,良イ:(N,0,-,0)1 ,): 天気ですが、(てんきですが、:(g,4644,I,1)2 ,天気ですが、:(N,0,-,0)2 ,天気 デスガ、:(N,0,-,0)1 ,): そんな(そんな:(1N,54122,ME,0)59,001 ,存な:(,21559,Ne,0)2,523 ,村な:(, 21559,Ne,0)2,503 ,損な:(,21559,Ne,0)2,341 ,祖んな:(,22058,Ne,1)511 ,素ん な:(,22058,Ne,1)503 ,疎んな:(,22058,Ne,1)463 ,租んな:(,22058,Ne,1)463 , 粗んな:(,22058,Ne,1)463 ,孫な:(,21559,Ne,0)255 ,ソンナ:(N,0,-,0)1 ,): 日でも(ひでも:(,55444,Ny,0)13,391 ,にちでも:(,55444,Ny,0)5,786 ,びでも: (,2974,Ny,0)386 ,日でも:(N,0,-,0)2 ,日デモ:(N,0,-,0)1 ,): 通勤(つうきん:(1,2083,Nk,0)2500,001 ,通勤:(N,0,-,0)1 ,): 時間が(じかんが:(,2083,Nk,0)2500,001 ,時間が:(gN,0,-,0)2 ,時間ガ:(N,0,-, 0)1 ,): 長いのは(ながいのは:(,73495,Nk,0)15,959 ,長いのは:(N,0,-,0)2 ,長イノは: (g,0,-,0)2 ,長イノハ:(N,0,-,0)1 ,): 辛いです。(づらいです。:(g,237473,Ae,3)2 ,つらいです。:(g,27874,Ae,3)2 , からいです。:(g,27874,Ae,3)2 ,辛いです。:(N,0,-,0)2 ,辛イデス。:(N,0,-, 0)1 ,): segments: 9 indep_word id=7556560 hash=1929658925 yomi_hash=82130316 #T ほんじつ 本日 dep_word hash=677692 は indep_word id=7835038 hash=678094 yomi_hash=850300 #KY よ 良 dep_word hash=677002 い indep_word id=6790908 hash=2146551269 yomi_hash=79608197 #T てんき 天気 dep_word hash=2146611393 ですが indep_word id=2014928 hash=2145187430 yomi_hash=2145187430 #RT そんな そんな indep_word id=7021714 hash=677741 yomi_hash=818223 #T ひ 日 dep_word hash=66401706 でも indep_word id=6696388 hash=66405494 yomi_hash=808923 #KYme なが 長 dep_word hash=2141356786 いのは indep_word id=6040873 hash=66398714 yomi_hash=788620 #D2KY づら 辛 dep_word hash=2141345569 いです ----ここまで----- あとは、文字コードを認識したり、htmlタグをはずしたり、もとの テキストの改行ではなくて句読点のところまでで行を構成したり するようなフロントエンドを付けることが必要かなと思っています。 -- -- CHAOS AND CHANCE! Yusuke TABATA