XML(Extensible Markup Language)は, World Wide Web Consortium(W3C)によって1996年11月に最初の規定案が発表されて以来, それまでのHTML又はSGMLの多くのユーザの注目を集めると共に, その後の規定案の改訂によってユーザ要求の充足を積極的に続けている。(財)日本規格協会 情報技術標準化研究センター(INSTAC)のマルチメディア/ハイパメディア調査研究委員会は, 1996年度の活動においてこのXMLの急速な立上がりに着目し, その調査研究を行って, "技術標準等の早期公開によるJIS化の前提となるコンセンサスの形成を促進する" という標準情報(TR)によるXMLの公表の必要性を提言した。
マルチメディア/ハイパメディア調査研究委員会は, 通商産業省工業技術院からの委託を受けて1997年度の活動として, その作業グループ(WG4)の中にXML特別作業グループ(XML-SWG)を組織し, XMLの翻訳及びW3Cへのコメント提出を行ってきた。
翻訳作業は,
XMLと並行してW3Cが開発しているXLL(リンク機構)及びXSL(スタイル指定)については, 1997年度始めのマルチメディア/ハイパメディア調査研究委員会の計画では, 1997年度にそれらの素訳が完成するはずであったが, W3Cでの作業の遅れにより, 実質的な翻訳作業は1998年度に延期された。
訳語選定に際しては,SGMLを規定しているJIS X 4151との整合を配慮した。しかしその後にJISとして出版されたSGML関連規格において,適切な理由に基づいてJIS X 4151の訳語を変更している用語については,なるべく新しいSGML関連JISの訳語を採用している。
この標準情報(TR)で採用した主な訳語の例を次に示す。
原語 | 訳語 | |
---|---|---|
well-formed | 整形式 | |
valid | 妥当 | |
validity | 妥当性 | |
parsed entity | 解析対象実体 | |
unparsed entity | 解析対象外実体 | |
escape | 別扱い | |
surrogate blocks | サロゲートブロック | |
ideographic | 統合漢字 | |
markup | マーク付け | |
left angle bracket | 不等号(小なり) | |
right angle bracket | 不等号(大なり) | |
adaptations annex | 適用附属書 | |
root | ルート | |
base character | 基底文字 | |
diacritical mark | 発音符(初出のとき"ダイアクリティカルマーク"を補う) | |
composed form | 合成形式 | |
validating | 妥当性を検証する | |
content particle | 内容素子 | |
mixed content | 混合内容 | |
match | マッチ | |
character value | 文字番号 | |
byte order mark | バイト順マーク | |
bypass | 処理しない | |
identify | 特定する | |
token | トークン | |
literal | リテラル | |
extender | エクステンダ |
W3Cの規定は, 必ずしもJIS又はTRの様式には整合していないため, 変更が必要である。しかしTRの読者が原規定を参照する際の便を考慮すると, 章・節構成はなるべく原規定のそれを保存することが望まれる。そこで, 次に示すだけの修正(章・節番号の変更なし)を施して, TR原案とした。
この標準情報(TR)は, XMLの1997年12月版を翻訳したものであるが, 翻訳作業には有限の時間を伴い, 原案提出は1998年2月6日となった。その結果, 原規定の"Status of this document"に記されている次の記述が無意味となり, この標準情報(TR)にはその翻訳を含めなかった。
This document is currently undergoing review by the members of the World Wide Web Consortium.
The review period for this Proposed Recommendation will end on January 5, 1998. Within 14 days from that time, the document's disposition will be announced: it may become a W3C Recommendation (possibly with minor changes), or it may revert to Working Draft status, or it may be dropped as a W3C work item. This document does not at this time imply any endorsement by the Consortium's staff or member organizations.
その代わりに, 原案提出後に, 次の記述をこの標準情報(TR)の"まえがき"の最終段落に追加している。
原規定である勧告案のレビュー期間は1998年1月20日に終了し, 寄せられたコメントへの回答は1998年2月10日に公開された。原規定に軽微な変更[この技術標準(TR)には反映されていない]を加えたものがW3Cの勧告として1998年2月10日に発行されている。この勧告は, http://www.w3.org/TR/1998/REC-xml-19980210 から入手できる。
日本語プロファイルは,XMLの枠組みの範囲のなかで文字の符号化方式についての明確化を行うことによって, 日本語で書かれたXML文書の交換性を高める。日本語以外の言語で書かれたXML文書については対象としない。
XMLは, Unicode 2.0が扱えるすべての言語を対象とし,UTF-8又はUTF-16で符号化された文書の交換性を保証する。しかし,日本語を用いて書かれるXML文書の交換性を充分に保証するわけではない。
シフトJIS, 日本語EUC, ISO-2022-JPなどの符号化方式は広く用いられているが,XMLにおいては単なるオプションの一つに過ぎず,厳密な定義はXMLでは与えられていない。SMTP, HTTPなどのプロトコルでどの符号化方式を用いるかについても, 特に定められてはいない。
日本語プロファイルは,UTF-8及びUTF-16以外にどんな符号化方式を使用するかを明確化することによって, XMLを補完する。日本語プロファイルとXMLとを組み合わせることによって,日本語XML文書についての交換性が保証される。日本語プロファイルの利用者は,日本人に限るわけでも,日本国内にいる人に限るわけでもない。日本国内にいる日本人が,日本語対応プロファイルを用いずにXML文書を作成することを排除するものでもない。日本語プロファイルに従っていれば, 交換性が高まるということだけが, 日本語プロファイルの効果である。たとえば, 日本語プロファイルに従わずに, EBCDICで符号化した日本語XML文書を送信することは可能であるが, 受信側で処理できる可能性は低い。
全角英数字(JIS X 0208のラテン文字用図形文字)及び半角片仮名(JIS X 0201の片仮名用図形文字)については, その使用を避ける。XMLの規定は,Unicode 2.0の互換性文字の使用を避けることを薦めている。
文字参照(番号による文字指定)又は実体参照によって,全角英数字又は半角片仮名を表現することができる。この方法を用いれば,どんな符号化方式でも,全角英数字又は半角片仮名を表現できる。
情報交換用ファイルに記憶されるXML文書については,BOM及び符号化宣言を付けることを原則とする。ただし,UTF-8の場合だけはこれらを省略できる。この原則は,この標準情報(TR)の附属書Fに示されている。
情報交換用ファイルに日本語XML文書を記憶するときの文字符号化方式としては,UTF-16, UTF-8, ISO-2022-JP, 日本語EUC(圧縮形式), シフトJISのいずれかを使う。これら以外の符号化方式は使用しない。
符号化宣言で指定する名前は,"UTF-16", "UTF-8", "ISO-2022-JP", "EUC-JP", "Shift_JIS"とする。これらの定義は,Internet Assigned Numbers Authority (IANA)から得られる。
XML文書を表現するオクテットデータストリームがアプリケーションの入出力となる場合も,情報交換用ファイルについての規定を適用することが望ましい。
XML専用の符号化方式変換プログラムの開発が望ましい。このプログラムは,コード変換だけではなく,BOM又は符号化宣言の書換えも行う。半角片仮名又は全角英数字が含まれている場合は,文字参照(番号による文字指定),実体,全角片仮名又は半角英数字のいずれかに変換する。
XML専用の符号化方式判定プログラムの開発が望ましい。ほかにも,XML文書先頭のBOM又は符号化宣言が文書の残りを構成するビット列と矛盾していないかどうかを判定するプログラム,BOM又は符号化宣言の修復を行うプログラムも考えられる。
HTTPによる配送では,メディアタイプtext/xmlを用い,charsetパラメタを必ず正しく付けることを原則とする。この原則は,この標準情報(TR)の附属書Fに示されている。
WebサーバからXML文書を配送するときの符号化方式は,UTF-16, UTF-8, ISO-2022-JP, 日本語EUC(圧縮形式)のいずれかとする。
Webサーバのコンフィギュレーションによって,xmlのファイルタイプと,
符号化方式を表す名前は,"UTF-16", "UTF-8", "ISO-2022-JP", "EUC-JP"とする。
Proxyサーバがコード変換を行う場合は,受け取ったcharsetパラメタだけに基づいて符号化方式を決定する。変換した後の符号化方式は,送り出すときのcharsetパラメタによって指定する。XML文書中の符号化宣言を書き直す必要はない。
Webクライアント(ブラウザなど)は,メディアタイプtext/xmlのcharsetパラメタに従って,符号化方式を決める。この標準情報(TR)の附属書Fにも同様の記述がある。
Webクライアントが,XML文書をファイルに記憶するときは,符号化宣言を付ける。ただし, UTF-8の場合だけは省略できる。記憶するときに, 符号化方式の変換を行ってもよい。
XML文書をメールの本文として送信する場合は,符号化方式としてUTF-16, UTF-8, ISO-2022-JPのいずれかを用いる。
UTF-16の場合は, メディアタイプapplication/xmlを用い, それ以外の場合はメディアタイプをtext/xmlとする。どの場合も, charsetパラメタを必ず付ける。符号化方式を表す名前は,"UTF-16", "UTF-8", "ISO-2022-JP"とする。
UTF-16又はUTF-8の場合は, 必要ならbase64を適用する。
この標準情報(TR)は, XML原規定の1998年12月版を翻訳したものであるが,1998年2月10日に, World Wide Web Consortiumがその改訂版を公表した。同様の改訂は, 今後もあり得る。そこで, この標準情報(TR)は, ウェブ版などによってきめ細かくこれらの原規格の改訂に対応していくことが望まれる。
この標準情報(TR)原案を作成した(財)日本規格協会 情報技術標準化研究センター(INSTAC)のマルチメディア/ハイパメディア調査研究委員会, 作業グループ(WG4)及びXML特別作業グループ(XML-SWG)の委員構成を, その順に次に示す。
氏名 | 所属 | |
---|---|---|
(委員長) | 池田 克夫 | 京都大学 |
(幹事) | 鯵坂 恒夫 | 和歌山大学 |
(幹事) | 小町 祐史 | 松下電送株式会社 |
(幹事) | 藤村 是明 | 電子技術総合研究所 |
内山 光一 | 株式会社東芝 | |
久保田 靖夫 | 大日本印刷株式会社 | |
黒川 利明 | 日本アイ・ビー・エム株式会社 | |
神野 俊昭 | 株式会社日立製作所 | |
斎藤 伸雄 | 凸版印刷株式会社 | |
澤田 位 | 財団法人日本規格協会 | |
滝川 啓 | NTTソフトウェア株式会社 | |
田畑 孝一 | 図書館情報大学 | |
橋爪 邦隆 | 通商産業省工業技術院標準部 | |
長谷川 敬太 | 日本電信電話株式会社 | |
平山 亮 | ヒューレット・パッカード日本研究所 | |
振角 秀行 | 通商産業省機械情報産業局 | |
古瀬 幸広 | 国際大学グローバルコミュニケーションセンター | |
柳町 昭夫 | 日本放送協会放送技術研究所 | |
オブザーバ | 掘 純一郎 | 日経BP社 |
(事務局) | 山中 正幸 | 財団法人日本規格協会 |
氏名 | 所属 | |
---|---|---|
(主査) | 小町 祐史 | 松下電送株式会社 |
(幹事) | 内山 光一 | 株式会社東芝 |
上村 圭介 | 国際大学グローバルコミュニケーションセンター | |
北野 敬介 | 日本サン・マイクロシステムズ株式会社 | |
黒川 利明 | 日本アイ・ビー・エム株式会社 | |
郡山 龍 | 株式会社アプリックス | |
澤田 位 | 財団法人日本規格協会 | |
山東 滋 | 株式会社日立製作所 | |
田中 義之 | 通商産業省機械情報産業局 | |
仁保 信市 | 株式会社東芝 | |
乃木 篤 | 株式会社CSK | |
湯原 孝志 | 通商産業省工業技術院標準部 | |
オブザーバ | 浅利 千鶴 | 浅利会計事務所 |
オブザーバ | 滝川 啓 | NTTソフトウェア株式会社 |
オブザーバ | 塚本 享治 | 電子技術総合研究所 |
オブザーバ | 古瀬 幸広 | 立教大学 |
オブザーバ | 吉川 徹志 | 通商産業省機械情報産業局 |
(事務局) | 山中 正幸 | 財団法人日本規格協会 |
氏名 | 所属 | |
---|---|---|
(主査) | 村田 真 | 富士ゼロックス情報システム株式会社 |
内山 光一 | 株式会社東芝 | |
小町 祐史 | 松下電送株式会社 | |
檜山 正幸 | 檜山オフィス | |
奥井 康弘 | 株式会社日本ユニテック | |
高橋 亨 | 株式会社日立製作所 |