標準情報 TR X 0047:2001

XMLによる画像参照交換方式 解説



1. 公表の趣旨

XML(Extensible Markup Language)は,マーク付け言語という性格上,文字データだけを直接記述できる。それ以外の情報は, 文書外の情報を参照するURIを記述するか,Base64形式などを用いて文字に符号化して埋め込むことが多い。XMLの規定には,SGMLから受け継いだ記法と呼ばれる機能が存在するが,記法を用いるには必ずDTDで記法宣言を行わねばならないため,DTDを必須としないXMLでは慣習的に利用されていなかった。

記法によって参照可能な情報には有益なものがある。その一つが,[JIS X 4172]の手続きで登録される公開識別子である。現在,特に要求の大きな公開識別子としては,[ISO/IEC 10036]の手続きで登録されるフォント関連オブジェクトがある。

XML文書からオブジェクトを参照する場合,記法以外の方法を用いることが多いが,その場合,利用者が任意に定めた文字列と,正規に登録された公開識別子とを明確に識別する手段が失われてしまう。属性を用いて公開識別子を指定する手段を標準化することによって,任意のXML文書から,同一の公開識別子を参照している文書を明確に識別することを可能とする。これによって,任意のXML文書に含まれる公開識別子の検索ソフトウェアの実装が容易になる。つまり,特定の名前空間に属する特定の属性だけをチェックすればよく,他の要素又は属性はすべて読み飛ばすことで目的を達成できる。

(財)日本規格協会 情報技術標準化研究センター(INSTAC)の次世代ネットワークの標準化に関する調査研究委員会は, その作業グループ(WG3)のXML特別作業グループ(XML-SWG)において, このXMLによる画像参照交換方式の調査研究を行なって, 標準情報(TR)によるXMLの公表の必要性を提言した。

XML特別作業グループ(XML-SWG)は, 通商産業省工業技術院からの委託を受けて2000年度の活動として, XML名前空間の翻訳及び標準情報(TR)原案作成を行なった。原案は2001年3月に経済産業省商務情報政策局に提出されている。


2. 背景

この標準情報(TR)は, 拡張漢字処理協議会が作成したXKP GAIJI交換仕様書(XKP GAIJI Exchange Specification)第1.0版に対して, XML-SWGにおいて議論及び修正を加えたものである。

拡張漢字処理協議会は, Windows NTなどのコンピュータ環境において高度な外字処理を実現するための標準仕様を定める業界団体であり, 1995年4月に設立された。Windows NT拡張漢字処理仕様書などを作成し, 公開していた。急速なInternet技術の普及に伴い, 同技術を活用した新しい外字取り扱い方法の必要性が, 同技術の利用者又は同協議会会員企業より高まり, 具体的な実装方法に関する研究が行われた。この結果を踏まえ, 情報交換に使用できる標準的な規定としてまとめられたものが, XKP GAIJI交換仕様書第1.0版である。

XKP GAIJI交換仕様書の特徴は,外字問題の本質は,文字の問題ではなく画像の問題であると規定したことにある。

外字とは, 符号化文字集合に含まれていない文字を意味するが,実際に利用者の使い方を分析すると,本来外字ではない文字を外字機能を用いて処理していることが多い。たとえば,データ入力を行っている画面上に表示された漢字に点が多いとか,はねる方向が違うといったケースに出会うと,利用者は必要な文字が無いと判断して,外字を作成する。このケースでは,利用者が欲しているのは外字ではないので,符号化文字集合を単純に拡張することでは要求を満たせない。どこまで異体字を細分化すれば満足するかは,利用者の判断次第なので,符号化文字集合の包摂範囲を狭めることでも解決できない。これを解決するには,利用者が見ているのが,単なる画面上の見かけであるという特徴に着目して,文字ではなく画像として処理するのが早道である。

WWW技術を用いると,画像を文書に含めるのは極めて容易である。表示及び印刷だけなら,特に新しい技術は必要ない。しかし,実際のシステム構築を行う場合には,データを検索する能力が欠かせない。つまり,ある文字列を含む文書を探し出すように,ある画像への参照をもつ文書を探し出したいという要求が存在する。そこで,画像に対して一意な名前を割り当て,それを記述する方法を標準化することによって,一意な名前を含む文書を探し出す処理が実現される。

学術的な研究者からは,研究途上の文字を扱う機能が求められている。これらの文字は,何らかの文献などに出現するものであり画像としては明確であるが,それをどのように規定すべきかは,研究途上というケースである。これらの文字に関しては,符号化文字集合に追加するには文字の定義が不明瞭であり,研究者しか扱わない古代文字などは,一般の符号化文字集合に追加することが適切ではない場合もある。

しかし,XMLを用いてデータを電子化した上で分析を行うためには,定義が不明瞭な文字を電子化する手段が必要になる。その際,文字を画像であると割り切って,それに対して一意の名前を割り当てることは有益である。この目的にも,XKP GAIJI交換仕様は利用可能である。

同仕様書の有用性に着目したXML-SWGでは, その内容を吟味し互換性を意識した上で再構築し, 標準情報(TR)とすることにした。

XKP GAIJI交換仕様書は,GAIJIという言葉を用いているが, 実際には外字処理を目的としたものではない。同仕様書でのGAIJIは,General Absolute Incalculable Jargon Imagesの略であり,文字ではなく画像を示すものと規定されている。しかしこの名称は誤解を招きやすいため,明確に"画像交換"という言葉を冠することにした。機能面での最大の変更は,画像を識別するための名称として,拡張漢字処理協議会が独自に割り当てた名称を用いていたものを,公開識別子に変更したことである。これによって,この標準情報は,あらゆる公開識別子を指定可能とする拡張の可能性をもつ。将来的に音声, 動画などに対して公開識別子が割り当てられれば,それに対応することも可能である。つまり,拡張漢字処理協議会が当初想定した外字処理への応用は,この標準情報の一つの利用例に過ぎない。

この標準情報の機能を一言で言えば,XMLの属性を用いた公開識別子の記述方法の標準化であって,外字問題を解決するものではない。実際に,外字問題と呼ばれるいくつかの問題のうち,一部はこの標準情報を用いて解決できるかもしれないが, すべての外字問題を解決できるわけではなく,解決できることを保証するものでもない。


3. 今昔文字鏡との併用

この標準情報(TR)は,今昔文字鏡(http://www.mojikyo.org/)という字典ソフトの規定する文字集合と同時に使用できる。今昔文字鏡は,諸橋大漢和辞典収録の約5万字の漢字, 甲骨文字のような古代文字,現代中国で使われている簡体字など多くの文字を収録し,これに対して文字鏡番号と呼ばれる一意の番号を割り当てている。この番号に対応する公開識別子の登録も行われている。

本来XMLは,[JIS X 0221]を前提として設計されている。しかし,この標準情報(TR)と,文字鏡番号に対応する公開識別子とを併用することによって,XML文書の中で,[JIS X 0221]に収録されていない学術的な文字を記述することができ,[JIS X 0221]では区別されない字形差を明示的に指定することができる。それらの場合でも,この標準情報(TR)が提供する機能は,文字を記述する機能ではなく,文字の形を示す画像データを識別する名前を記述する機能であることに注意が必要である。

このような経緯であるため,この標準情報(TR)での使用には,まず今昔文字鏡を調べ,利用したい画像が既に今昔文字鏡の番号と共に登録済みであれば,なるべくその公開識別子を使用するとよい。今昔文字鏡に含まれていない場合には,今昔文字鏡に対して登録申請を出し,文字鏡番号を確保した上で公開識別子を申請するとよい。そうすると,この標準情報(TR)以外で文字鏡番号を使用するアプリケーションとの互換性が確保できる。なお,今昔文字鏡は官報のXML化に際しても使用され,多様な文字を含む文書の電子化に利用されることが多い。


4. 参照画像データ情報言語の用途

この標準情報(TR)は, 二つの言語を規定している。画像データ参照言語は, 明確な利用方法を規定したものであり,適合性を満たすためにはこれを利用しなければならない。これに対して,参照画像データ情報言語は,利用上の便宜を図るために規定されている。つまり,公開識別子が定まれば,それに対応する画像データも一意に決まるが,現実に運用されるシステムがすべての公開識別子に関する表示情報をもつわけではない。そこで,表示用の情報を提供するために参照画像データ情報言語で記述された情報を併用することができる。これは,文書本体とは別の文書として用意してもよく,XML文書の素片として埋め込んでもよい。


5. 参考文献

[XKP GAIJI 1.0] XKP GAIJI交換仕様書 第1.0版, 拡張漢字処理協議会, 2000-07-28

[XKP 2.1] Windows NT 拡張漢字処理仕様書 第2.1版, Windows NT漢字処理技術協議会, 1998-03-06


6. 原案作成委員会

この標準情報(TR)の原案を作成した(財)日本規格協会 情報技術標準化研究センター(INSTAC)の次世代ネットワークの標準化に関する調査研究委員会, 作業グループ(WG3) 及びXML特別作業グループ(XML-SWG)の委員構成を, その順に次に示す。

解説表6.1 次世代ネットワークの標準化に関する調査研究委員会
氏名所属
(委員長)池田 克夫京都大学
(幹事)鯵坂 恒夫和歌山大学
(幹事)小町 祐史松下電送システム株式会社
(幹事)平山 亮ヒューレット・パッカード日本研究所
内山 光一株式会社東芝
久保田 靖夫大日本印刷株式会社
黒川 利明株式会社CSK
斎藤 伸雄凸版印刷株式会社
二本松 勝株式会社日立製作所
八田 勲経済産業省産業技術環境局
藤原 洋株式会社インターネット総合研究所
松本 充司早稲田大学
柳町 昭夫株式会社NHKアイテック
(事務局)山中 正幸財団法人日本規格協会


解説表6.2 作業グループ3(WG3)
氏名所属
(主査)小町 祐史松下電送システム株式会社
(幹事)内山 光一株式会社東芝
稲垣 達夫グランスフィア株式会社
奥井 康弘株式会社日本ユニテック
海田 茂ネクストソリューション株式会社
風間 一洋日本電信電話株式会社
上村 圭介国際大学グローバルコミュニケーションセンター
栗林 博オムロン株式会社
黒川 利明株式会社CSK
郡山 龍株式会社アプリックス
澤田 位財団法人日本規格協会
出葉 義治ソニー株式会社
内藤 広志大阪工業大学
西村 利浩株式会社富士通
湯沢 広吉経済産業省商務情報政策局
オブザーバ浅利 千鶴浅利会計事務所
オブザーバ篠原 章夫日本電信電話株式会社
オブザーバ山東 滋株式会社日立製作所
オブザーバ萩原 崇弘経済産業省商務情報政策局
オブザーバ永井 裕司経済産業省産業技術環境局
(事務局)山中 正幸財団法人日本規格協会


解説表6.3 XML特別作業グループ(XML-SWG)
氏名所属
(主査)村田 真日本アイ・ビー・エム株式会社
今郷 詔株式会社リコー
内山 光一株式会社東芝
小町 祐史松下電送システム株式会社
檜山 正幸檜山オフィス
奥井 康弘株式会社日本ユニテック
高橋 亨株式会社日立製作所
川俣 晶株式会社ピーデー
上村 圭介国際大学グローバルコミュニケーションセンター
(事務局)山中 正幸財団法人日本規格協会