Re: ISO-2022-JP-MS について (LE-talk-ja 20) - Legacy Encoding Project

成瀬です。

Tadamasa Teranishi wrote:
> "NARUSE, Yui" wrote:
>> そこで、日本語テキストを扱う場合に、
>> 過去の資産及びシステムが使っている文字コードは、
>> * ISO-2022-JP
>> * Shift_JIS
>> * CP932
>> * EUC-JP
>> * eucJP-ms
>> * CP51932
>>
>> だと考えました。
> 
> んー。どうでしょうね。意見は割れるところではないかと思います。

三つでいいとか、逆にもっと必要だと考える方もいるでしょうね。

>> * そのような CP51932 を用いた資産が相当数存在する
>>   (IEから投げられた「日本語 (EUC)」をそのまま保存しているシステム）
>> という理由からこれも追加しました。
> 
> それが CP51932 でなければならないとか、そのまま CP51932 として
> 生かさないといけないのかというところには疑問が残ります。

NEC選定IBM拡張文字が 0xF9A1 から 0xFCFE になる文字コードは、
わたしは CP51932 しか知りませんが、
他にそのような文字コードがあるならばそれでもよいでしょうね。
他に無いならば eucJP-ms でなく、CP51932 でなければならないでしょう。

そのまま CP51932 として生かさないといけない、とは思っていません。
多少平行運用を行わなければならない場合もあるでしょうが、
多くの場合は、
  nkf --overwrite --ic=CP51932 --oc=UTF-8
一回の利用だろうとは思っています。

>> ユーザは使い分けることが難しいと考えていらっしゃるようですが、
> 
> そう思いますよ。

うーん、MySQL 4.0 の時に CP932 相当が提供されず騒ぎになった記憶や、
Ruby に nkf-2 を取り込んだときに何人かから CP932 まわりで
ツッコミを受けたりしたので、
少なくとも CP932 についてはわたしはニーズもあるし、
使い分けたい人がいると考えているのですけれど。

eucJP-ms についても、Perl Encode は対応しないのかという質問を、
ML も投稿者も異なるもので 4,5 件見てはいます。

けれど、説得力のあるニーズを示すデータは難しいですね。

> ヒット数だけでは何とも判断がつかないのではないでしょうか?
> 相当の人が必要性を感じ、使い分けているとはどうも思えませんし、
> その根拠にgoogleのヒット数を出すのでは、説得力にかけます。

ごもっともな指摘だと思います。
しかし、他に「数字」が出る指標があるかというと、うーん。。。

はてなあたりで質問すれば数字は出せるでしょうが、
それも説得力に欠けそうですし。

> まぁ、それはあるでしょうけど、それを救うことにどれほどの意味が
> あるのか疑問が残ります。

これは反論不可能ですね。

>> ユーザ定義文字をメールで送信するために、
>> 当事者同士で合意の上 ISO-2022-JP-MS で送る余裕があるのならば、
>> CP932 で添付ファイルにするなり、UTF-8 で送るべき、
>> というのは当然の批判でしょう。
> 
> メールに限らず UTF-8 化に力を注ぐほうが、より健全だろうと思います。

UTF-8 化の前提として、既存データの UTF-8 化が存在し、
それを行うのにレガシーエンコーディングと Unicode の対応表が、
‘いくつか’必要である、というのがわたしの考えです。

過去のデータは全て捨ててしまえ・・・とは言いませんよね？
＃システムは捨ててしまえ、というのもありでしょうが。

そのうえで、Shift_JIS だけでいいじゃんとか、
Shift_JIS と CP932 の違いは大きいよ、という話になるでしょう。

Java 方面で Shift_JIS がCP932 の alias になった騒ぎがありましたが、
騒ぎになる程度の違いは両者にある、と。
（これもまたえらく主観的ですが）

-- 
NARUSE, Yui  <narus****@airem*****>
DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA

Legacy Encoding Project

[LE-talk-ja 20] Re: ISO-2022-JP-MS について