Re: LE-talk-ja での議論のまとめ (LE-talk-ja 137) - Legacy Encoding Project

On 2006/05/18, at 15:49, Nozomi Ytow wrote:
> よ> クライアントがcp932でPHPとMySQLで組んでいるシステムがあったとして
> よ> MySQLとPHPがeuc-jpを使っていたとします。
> よ> それを運用している人が文字化けするからUTF-8に移行するかという話 
> です。
>
> cp932 には「はしご高」がある一方、euc-jp の高は「包摂高」なので
> euc-jp には「はしご高」も「くち高」もあり得ない (あってる?)、
> だから cp932 と euc-jp は本当は共存できず、UTF-8 に移行した
> ところで問題は厳密には解決しない。でも見た目それっぽいくらいなら
> できる、というレベルの問題だと思っているのですが、違いますか。

たぶん，違うと思います．

吉岡さんが指摘しているのは，CP932<->EUC-JPをなんとかしようという話では 
なく，CP932<->CP51932(ないしはeucJP-ms)をコンバータを追加して可能にし 
ようという話で，Unicodeを中心としたピボット変換時にベンダ独自文字が欠 
落する問題を解決しようということだと思います．

この場合に共存するレガシーエンコーディングで動くシステムは，アルゴリズ 
ム変換によるサポートする文字レパートリの曖昧性で処理できると考えている 
と思います．ただし，この場合も厳密に言うと伊藤さんが指摘したような字体 
の問題がありますが，ここで想定しているのはデータベースのように蓄積する 
が，そこで直接文字を表示するわけでないシステムを念頭に置いているので， 
無視できるものとしていると理解しています．

> eucJP-ms というのは名前としてはちょっとアレなのでいっそのこと
> euc-CPナントカなどもっと直接的なものにしてはどうかと思いますが、
> UTF-8 に移行したところで解決しない問題なので、仮に移行コストを
> 度外視しても「UTF-8 にすればいいじゃん」とは言えないよなぁと
> 思っています。

確かに前から名前が気に入らないという話はあるんです（笑）が，すでに使わ 
れている文字符号化の名前を変えるのは大変で，結局昔の名前をエイリアスと 
しても持たざるをえないなんてことになりますから，名前に関しては目を瞑っ 
て使うしかないかなあと思っています．
---
風間 一洋 (kazam****@mac*****)

Legacy Encoding Project

[LE-talk-ja 137] Re: LE-talk-ja での議論のまとめ