Re: 重複符号化文字 (LE-talk-ja 227) - Legacy Encoding Project

成瀬です。

Nozomi Ytow wrote:
> これは、CP932 から Unicode への変換の話で、CP932 とたとえば
> CP51932 の間の変換の根拠にはなりませんよね。

基本的に CP* というのは Unicode 対応表のことである、
とわたしは理解しているので、根拠になるかと。

> Unicode が中間にあるのだ、という実装を仕様に押しつけることなく、
> CP932 と CP51932 なりの間の変換が現実的なやりかた、つまり
> 文字集合の組毎のコンバータを作らずに間に Unicode を使うやりかたで
> 実現できるなら、CP932 と CP51932 なりの変換仕様としてはむしろ
> 適切なのではないでしょうか。

よって、むしろこちらが独自拡張でしょう。

そもそも、このプロジェクトはLegacy Encodingを
使いやすくするプロジェクトではなく、
Legacy Encodingをなるべく早期に混乱なく葬るプロジェクトのはずですので、
Unicodeで区別できない文字をレガシー間で区別して
変換する枠組みを整備しようというのはその趣旨にも反します。

また、CP51932にはIBM拡張文字がありませんし。

> 「間に入るのがいかんせん Unicode だからねぇ」というのは
> 必ずしも仕様を束縛すべきではないでしょう。やり方が全くないなら
> 仕方ありませんが、VS を使えばできなくはありません。

すみません、VS ≠ IVS なのはわたしの誤解ですね。

VSについては、正式な規格と衝突する可能性は少なそうですが、
外字まがいの手法であることは確かです。
そのような裏技的な手法をこのプロジェクトで用いるのには反対です。

「内部処理用」というのが言い訳にならないことは、
Shift_JISやEUCが外部に流れてしまっている事例等もありますし。
他の機関が既に標準化していること以外は避けたいところ。

> あとは、それを利用して仕様を定義するか、利用せずに実装を
> 優先するかという問題だと思います。

実装指向なプロジェクトであると解しています。
レガシーから移行する際に必要な情報を集めて公開し、
また移行に必要な実装を提供するプロジェクトであると。

-- 
NARUSE, Yui  <narus****@airem*****>
DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA

Legacy Encoding Project

[LE-talk-ja 227] Re: 重複符号化文字