[LE-talk-ja 134] Re: LE-talk-ja での議論のまとめ

Back to archive index

Nozomi Ytow nozom****@biol*****
2006年 5月 18日 (木) 15:49:03 JST


オフラインミーティングには参加できず残念でしたが、
資料が見られ助かっています。
しかし、すみません、議論を読んでいてわからなくなりました。

Hiro Yoshioka <hyosh****@mirac*****> wrote:

よ> クライアントがcp932でPHPとMySQLで組んでいるシステムがあったとして
よ> MySQLとPHPがeuc-jpを使っていたとします。
よ> それを運用している人が文字化けするからUTF-8に移行するかという話です。

cp932 には「はしご高」がある一方、euc-jp の高は「包摂高」なので
euc-jp には「はしご高」も「くち高」もあり得ない (あってる?)、
だから cp932 と euc-jp は本当は共存できず、UTF-8 に移行した
ところで問題は厳密には解決しない。でも見た目それっぽいくらいなら
できる、というレベルの問題だと思っているのですが、違いますか。

そういう意味では、

Tomoyuki Asakawa <tom****@asaka*****> wrote:

あ> 実際は、メールは、表面的には、MUAだけの問題で解決できるの 
あ> で、単純な部類です。

と同じ程度だとも言えるし、MUA では実は解決していないとも言える気が。

あ> 問題は、メールに限らず、「それ」を格納し、「それ」を、
あ> 取り出す時 の問題
あ> どこに格納するかによって、「それ」が、変化してしまう。

文字集合間に(厳密な意味での)互換性がない以上、不可避だと思います。
「それ」が格納先の「それ」になってしまう (「包摂高」を
「はしご高」と「くち高」の格納場所を持ちかつ「包摂高」の
格納場所を持たない系に格納したら、取り出せるのは
「はしご高」か「くち高」のいずれかであって「包摂高」ではない)
のは当り前ではないかと。そう考えると Unicode との変換規則は
レガシー側でという発想は理解できます。

そこまで細かい事を問うているとは思いませんが、
結局は無理な事を求めているのだし、だから実装をいろいろ
作らざるを得ないのではないかと思います。
包摂文字かどうか指定する拡張というのもかつて考えてみたことは
あるのですが、アプリケーション依存 (そんなのマニアしか使わない
ともいう) になりそうなのでやめました。

eucJP-ms というのは名前としてはちょっとアレなのでいっそのこと
euc-CPナントカなどもっと直接的なものにしてはどうかと思いますが、
UTF-8 に移行したところで解決しない問題なので、仮に移行コストを
度外視しても「UTF-8 にすればいいじゃん」とは言えないよなぁと
思っています。
--
NOZ 伊藤 希 (のぞみ)
O O
ZON 



Legacy-Encoding-talk-ja メーリングリストの案内
Back to archive index