SAKAI Kei
sak2****@artry*****
2008年 4月 21日 (月) 13:14:29 JST
坂井です こりゃすごい。生成させて思いっきり笑いました! 本筋じゃない部分ですけど改良して何かもっともらいし文章を出すように したいなーとか考えてしまったり(笑)。 行末に似た単語が並ぶケースが多いようですが、なんかアルゴリズム的 にそうなるようになってるんですかね・・・ 200MB を1分弱で生成するし、速いですね〜。 $ time ./datagen 200 1000000 > z.txt real 0m56.938s user 0m26.930s sys 0m29.122s #適当に句読点希望(笑)。 以上 On Mon, 21 Apr 2008 11:25:48 +0900 Tetsuro IKEDA <te.ik****@jpta*****> wrote: > こんにちは。池田です。 > > Tritonnの性能試験(N-gram)を手軽に行えるようにするため、 > 適当な日本語をでっちあげるプログラムを作りました。 > > 以下からsvn coできます。 > http://svn.sourceforge.jp/svnroot/tritonn/misc/data > > 閲覧はこちら。 > http://svn.sourceforge.jp/cgi-bin/viewcvs.cgi/misc/data/?root=tritonn > > checkoutするとdatagen.cというソースファイルがありますので、 > コンパイルして以下のように実行すると日本語を生成できます。 > > ※N-gram的に日本語っぽいやつが生成されるだけで、意味は通りません。 > > gcc -o datagen datagen.c > ./datagen 100 100 > > 引数1: 1行あたり何bytesの日本語を生成したいか > 引数2: 何行生成したいか > > 上記の例ですと100bytes*100行=10KBのデータになります。 > > 文字コードはEUC-JPのみです。 > MySQLにimportするときにcharset指定でutf8等好きなものに変換できます。 > > 最初、性能度外視でBash+MySQLで作ったら秒間100bytesしか生成できず、 > 反省してCで作り直したら秒間1MBくらいは生成できるようになりました。 > 3GBのデータを30分くらいで作れます。 > > _______________________________________________ > Tritonn-dev mailing list > Trito****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/tritonn-dev