日本の文字コードとUnicodeとの変換についての標準化検討

Discussion on standardization of the conversion between Japanese coded character sets and Unicode

情報交換記述言語調査研究委員会(DDFD) WG1

編集: 村田 真、風間 一洋

$Date: 2003/10/04 04:51:15 $

日本国内で使われている文字コードとUnicode の変換規則について、次世 代コンテンツ調査研究委員会WG2 で検討し、 情報交換記述言語調査研究委員会(DDFD) WG1はこれを引き継いでさらに検討した。現実にいくつかの相異なる変 換規則が使われており、Unicodeを国際化の基本としたOS, アプリケーション, フォーマットにおいて,国内文字コードにある文字が意図したとおりに表示又 は変換されないという問題を引き起こしている

本来は、変換規則は一本化されるべきであった。残念ながら、これらの変換 表を一本化することはもはや不可能である。次善の策として、異なる変換規則を 区別するため、IANAにcharsetとして追加登録すべきかどうかについて検討し た。

最初に、すべての変換規則を登録するという案が出された。しかし、いく つもの変換規則が仕様として公開され、実装ごとに(場合によってはバージョン ごとに)も相違が存在するため、すべての変換規則を列挙することは現実的には 困難である。

次に、ごく一部の変換規則に限って登録するという案が出された。 どの変換規則を選ぶかについては、広範囲に使われていることが明らかなものだ けを登録するという案、文字レパートリーの違いに注目して登録する案などが 出され、意見は一致を見なかった。

また、変換規則をcharsetとして登録しても、現実には機能しないという意 見もあった。既存の文字コードのさまざまの変種をIANA に登録しても,開 発者や利用者が正しく使いこなせずに混乱を招く可能性が大きい、既存の文字 コードは今後使われなくなっていくと予想されるなどがその理由である。

結論として、無理な標準化作業は避けるべきだと委員会での間で合意した ため、charsetの登録要求は行わないことを決定した。

補足(風間委員)

日本国内で今まで使用されてきた文字コードとUnicodeの間の相互変換をおこなう場合には、次の3つの問題が発生する。

1. 既存の文字コードからUnicodeに変換する際に、 ある文字が使用している変換規則に存在しないという問題。 これは、既存文字コードでベンダ依存文字又は私用文字を使用している場合である。 この場合は、UnicodeのREPLACEMENT CHARACTER (U+FFFD)に変換され、 以後その文字は本来の意図通りに扱われない。

2, 明示的に変換規則を指定することで既存の文字コードからUnicodeに変換できた又は日本語の文字がすでにUnicodeで表されているが、 そのUnicodeコードポイントに対応するグリフが、 使用してるフォントに存在しないという問題。 これは、フォントベンダがUnicodeに収録されたすべての文字に対してグリフを作ることはほとんどなく、それを提供するOSまたはアプリケーションベンダの要求する範囲にしか割り当てないからである。 この場合は、その文字は表示されない又は別の文字に置き換えられて表示される。 フォントインデックス又はグリフの追加で対応可能である。

3, Unicodeから既存の文字コードに変換する際に、 あるUnicodeコードポイントが指定された変換規則に存在しないという問題。 この場合は、一般的には'?'などの別の文字に置き換えられる。

これら1.,2.,3.の原因は、 円記号問題(JIS X 0201の円記号をUnicodeの円記号とバックスラッシュのどちらに割り当てるべきか?)のように既存文字コード設計が抱える歴史的問題、 ベンダごとによって収録する文字が異なったり外字を使用しているなどの文字集合の不一致の問題、 変換候補がUnicodeに複数存在する場合にどれに対応づけるかというベンダ間の変換規則の問題(たとえば,「〜」をどのUnicodeコードポイントに割り当てるかはベンダによって異なる)などである.

現在の国際化された大部分のOS、アプリケーション、フォーマットはUnicodeを基本とし、既存の文字コードとの間に相互変換が存在するために、 これは深刻な問題となっている。

付録

日本語プロファイル 標準情報(TR) TR X 0015:2002 http://www.y-adagio.com/public/standards/tr_xml_jpf2/toc.html

XML Japanese Profile W3C Note 14 April 2000 http://www.w3.org/TR/2000/NOTE-japanese-xml-20000414/

CHARACTER SETS, IANA, http://www.iana.org/assignments/character-sets

eb2m-mrt@asahi-net.or.jp