[Anthy-dev 3236] Re: anthy-dic-toolと文字エンコーディング

Back to archive index

Takashi Nakamoto blued****@openo*****
2006年 11月 23日 (木) 13:16:46 JST


中本です。

添付し忘れ。
# 66%の確率で私は添付し忘れる orz

Takashi Nakamoto <blued****@openo*****> wrote:

> 中本です。
> 
> もはや、anthy-dic-toolは使われていない気がしますが、文字エンコーディン
> グ周りでとても怪しい挙動をするので報告(anthy-8317)。
> 
> 問題1. anthy-dic-tool --dump すると「品詞 = 人名」などの文字列が化けて
>        いる
> 
> これについては、明らかなバグだったのでパッチを添付しておきます。
> (anthy-8317_dump_encoding.diff)
> 
> 問題2. anthy-dic-tool --dump と anthy-dic-tool --dump --utf8では出力の
>        結果が異なる
> 
> これは何も指定しないときには、
>  encoding = ANTHY_EUC_JP_ENCODING
>  prefix = "  "
> となり、prefixが"  "のもののみしか検索せず、逆に --utf8 を指定すると
>  encoding = ANTHY_UTF8_ENCODING
>  prefix = "  p"
> となり、prefixが" p"のもののみしか検索しないためdumpの結果が異なってい
> るようです。
> 
> 解決策としては、
>  1. 指定された文字エンコーディングに関わらず2つのprefixに対して検索し、
>     出力時に指定された文字エンコーディングに変換する
>  2. 辞書内の文字エンコーディングはどちらかに統一する
>  3. このまま仕様ということにする
> がありますが、2つのエンコーディングをどうやって併用していくのかという
> 方針を知らないので保留しておきます。
> 
> p.s.
> 最近(というか昨日の深夜)、
> http://bd.tank.jp/anthy_reading/index.html
> こんなん書きました。
> まずは辞書周りを改造しようかなとか思っています。これについては、また後
> でメールを投げます。
> 
> -- 
>  中本 崇志 (Takashi Nakamoto)
>  E-mail: blued****@bpost*****
>  Blog: http://bd.tank.jp/diary/
> _______________________________________________
> Anthy-dev mailing list
> Anthy****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/anthy-dev


-- 
 中本 崇志 (Takashi Nakamoto)
 E-mail: blued****@bpost*****
 Blog: http://bd.tank.jp/diary/
-------------- next part --------------
文字コード指定の無い添付文書を保管しました...
名前: anthy-8317_dump_encoding.diff
下载 


Anthy-dev メーリングリストの案内
Back to archive index