Re: 重複符号化文字 (LE-talk-ja 184) - Legacy Encoding Project

少し考え直しました。

> * Microsoftも正規化している
> http://support.microsoft.com/default.aspx?scid=kb;ja;JP170559

これは、CP932 から Unicode への変換の話で、CP932 とたとえば
CP51932 の間の変換の根拠にはなりませんよね。ただ、たまたま
Unicode を中間コードに用いているから、影響があるかもしれない
事ではあるわけです。で、

"小崎資広" <m-kos****@ceres*****> wrote:
>  このプロジェクトの「現実を見よう！」方針からすると、

Unicode を中間コードとして用いるのは現実的なやりかただと思います。
しかし、そこから

> 必要ないってことになりませんか。

にはならないんじゃないでしょうか。
Unicode が中間にあるのだ、という実装を仕様に押しつけることなく、
CP932 と CP51932 なりの間の変換が現実的なやりかた、つまり
文字集合の組毎のコンバータを作らずに間に Unicode を使うやりかたで
実現できるなら、CP932 と CP51932 なりの変換仕様としてはむしろ
適切なのではないでしょうか。

「間に入るのがいかんせん Unicode だからねぇ」というのは
必ずしも仕様を束縛すべきではないでしょう。やり方が全くないなら
仕方ありませんが、VS を使えばできなくはありません。
あとは、それを利用して仕様を定義するか、利用せずに実装を
優先するかという問題だと思います。
--
のぞみ

Legacy Encoding Project

[LE-talk-ja 184] Re: 重複符号化文字