NIIBE Yutaka
gniib****@fsij*****
2010年 7月 31日 (土) 15:27:14 JST
(2010年07月20日 09:21), NIIBE Yutaka wrote: > 参考のため、結果を添付します。 7/20 の時点では付属語の属性の値の扱いに間違いがあり、だいぶ状態の数が 少なくなっていました。 その後、さらに実装を進め、DFA を使って anthy が動くところまで作りました。 40年前の Hopcroft さん、Gries さんの論文を読んで実装しました。 ブランチ feature/ancill-words-dfa で作業しました。とりあえず動いていま す。 今のところ、20文字までの付属語と文字数に制限をつけて、 # of NFA states: 15629 # of DFA states (before minimization): 54165 # of DFA states: 47883 となっています。 calctrans/proccorpus の出力する結果で比較して、付属語が master と同じく 認識されていることを確認しました。 一応ここまで作ってみて、思うことはいろいろありました。 まぁ、これって(現状でも)やりすぎで、あまりデキが良くないかもしれません。 おいおい論点を書いていきますが、とりあえずすぐに見てわかる所を。 calctrans/proccorpus の出力で付属語の長いのを見てみると下記のようなのが あります。 いことということにしておきましょう えるようになるんじゃないかと されてないんじゃないですかね されてはいないみたいですけど することになるんじゃないかと ったということなんでしょうか っていただけそうということで っていただけませんでしょうか ってくるなということぐらいでしょうか できるようなものではないんですけどね できるようになるみたいですが になってるんじゃないですかね になってるんじゃないんですか らせていただくことになりました らないということになるはずです るということになるんですかね 「良くやってる」と言えなくもないですが、これらは、 * 「...こと」と「ということ...」で区切る * 「...ように」と「なるんじゃ...」で区切る * 「...じゃ」と「ない...」で区切る * 「...もの」と「では...」で区切る * 「...いない」と「みたい...」で区切る * 「...に」と「なる...」で区切る ... などわけてもいいのではないでしょうか。 また、下記はやりすぎかも。 くなっているのかもしれません しているだけかもしれませんが 「しれません」て付属語として扱うのは微妙かも。 --