D&D99 チュートリアル「研究・教育のディジタル革命」

HTMLからXMLへ

小町 祐史
松下電送システム 技術研究所
1999-03-16

1. はじめに

文書の構造を記述する言語として, SGML(Standard Generalized Markup Language, 標準一般化マーク付け言語)[文献1)]が国際規格になったのは, 1986年であった。この言語は, さまざまな組織の出版物の記述に採用され, 多くのツール類が開発されてきたが, その圧倒的な普及は, HTML(HyperText Markup Language)[文献2)]と呼ばれるSGMLのDTD(Document Type Definition, 文書型定義)がウェブ環境における文書記述に用いられてからであった。

HTMLは, その単純さが文書記述を極めて容易にし, しかも関連ツールの開発も容易にして, 大量のハイパテキストがネットワーク上に蓄積され, また逆にこれがインターネットの普及を促進することにもなった。しかしこの大量普及の当然の結果として, HTMLでは記述できない, または記述しにくい文書がクローブアップされることとなり, HTMLと同様の手軽さでSGMLと同様の文書記述を行いたいというユーザ要求が強まってきた。

この要求に応えることを目的としてW3C(World Wide Web Consortium)が開発した記述言語がXML(Extensible Markup Language, 拡張可能なマーク付け言語)[文献3)]であり, SGMLのサブセットに位置付けられる。つまりXMLは, HTMLでは扱えない文書構造をDTDを定義することによってサポートし, これまでのHTML処理系と同様に, DTDが与えられなくても処理を可能としている。W3Cは1996年末に最初のXMLドラフトを発表すると共にその更新を続け, 1998年2月にその勧告を制定した。

2. 国際および国内での標準化対応

XMLの基本となったSGMLは, ISOによって開発・制定されて以来, ユーザーズグループ等の支援の下に緩やかな普及を続けてきた。 そのコンセプトは,ISOのその後の活動によって, HyTime(Hypermedia/Time-based Structuring Language)[文献4)]としてさらに一般化されると共に, DSSSL(Document Style Semantics and Specification Language)[文献5)]などのフォーマット指定言語にも踏襲され, さらに一連の関連規格の整備によってSGML利用環境が充実してきた。

SGMLのサブセットとしてW3Cによって開発されたXMLは, 関連業界の急速なXML導入によってその普及がさらに加速化されている。この動向に基づく技術的検討は, ISOにもフィードバックされ, SGML, HyTimeなどへの部分的再検討が行われてきた。その結果については, 国内の規格(JISまたは標準情報(TR))としても国際整合をとる必要に迫られている。

2.1 国内動向

XML(1997-12版)の翻訳原案は, 日本工業標準調査会情報部会の審議・承認を経て1998年5月に公表され, 日本規格協会からTR X 0008:1998[文献6)]として出版された。

XML勧告(1998-02版)に適合した標準情報(TR)改訂原案は, 1998年度の(財)日本規格協会情報技術標準化研究センター(INSTAC)における委員会活動によって既に完成している。1998年末頃にW3Cが発表するerrataの内容を反映させた後, 1999年2月に工業技術院に提出する予定である。その際に, TR X 0008:1998の解説に含まれていた日本語プロファイルを独立させ, 別の標準情報(TR)の原案とすると共に, その英語版をW3Cに提案する。

W3Cが開発しているXMLに関連する一連の規定の中で, Namespaces, XLink, XPointer, XSL(Extensible Style Language), RDF(Resource Description Format)については, 当初1998年度の活動の中でTR原案作成を行う予定であったが, W3Cの作業の遅れを考慮して, 1999年度の作業に位置付けている。

これらの対応状況を次の表に整理する。

名称現状対応委員会
XML(1997-12)TR X 0008公表済みマルチメディア/ハイパメディア調査研究委員会, XML-SWG
XML(1998-02)翻訳原案高速Webにおける標準化に関する調査研究委員会, XML-SWG
Namespaces素訳中高速Webにおける標準化に関する調査研究委員会, XML-SWG
XLink/XPointer素訳中高速Webにおける標準化に関する調査研究委員会, XML-SWG
XSL原規定レビュー中高速Webにおける標準化に関する調査研究委員会, XML-SWG
RDF Schema素訳中高速Webにおける標準化に関する調査研究委員会, WG3
DOM素訳中高速Webにおける標準化に関する調査研究委員会, WG3
CSS1TR X 0011公表済み電子出版技術調査研究委員会, WG1

1997年度までの翻訳作業により, 次のJISが制定・出版されている。

番号題名制定対応国際規格
JIS X 4153文書スタイル意味指定言語(DSSSL)1998-03ISO/IEC 10179:1996
JIS X 4151 追補1拡張命名規則1998-01(改正)ISO 8879:1986/TC1:1996
JIS X 4172SGML公開テキスト所有者識別子1998-01ISO/IEC 9070:1991
TR X 0004日本工業規格, 国際規格...(のDTD)1997-07(公表)ISO/IEC TR 9573-11:1992

注: これらの前にも, JIS X 4151(SGML), JIS X 4171(SDIF)等が発行されている。

2.2 国際動向

一連のSGML関連規格を担当してきたISO/IEC JTC1/SC18/WG8は, 1998年のJTC1再構成の結果, JTC1/WG4としての活動を経て新たな技術委員会JTC1/SC34になり, SGML関連規格はその作業グループWG1が担当することになった。W3Cとは以前から積極的なLiaison対応を行っており, 会議には常にW3CからのLiaison代表が参加している。

1997年からは, XMLのコンセプトをSGMLに取り入れてXMLをSGMLの完全なサブセットに位置付けるためのTechnical Corrigendum(TC)が提案され, 既にTC2(WebSGML)[文献7)]が投票で承認された。1998年になってからは, TC3[文献8)]の審議が開始され, 投票によるその承認の後, TC2とTC3とを統合したテキスト[文献9)]が出版される予定になっている。

3. ISOの作業そのもののSGML/XML化

ISOの作業そのものの電子化を検討するために, ISO/ITSIG(Information Technology Strategies Implementation Group)が設立され, 規格開発に伴う一連のワークフローの見直しと電子化による効率向上に必要な作業のガイドライン作成が行われている。

1998年11月には東京でITSIG Workshop[文献10)]が開催され, 多くの規格開発関係者が参加した。同時に開催された非公式の委員会では, XML導入のためのサブグループについても検討されている。

4. 機械可読文書

XML開発の背景には, 少なくとも次の2項目がある。

この(2)の要求こそが, 最近の電子化文書に求められる機械可読文書としての機能である。(2)で求められているアプリケーションは, 表面的に次の3タイプに分類[文献11)]される。

(a)のアプリケーションのためには, 連携させる文書情報を予め合意した互いに整合し得るDTDによって記述する必要がある。もともと連携させたい文書データは類似の構造をもち, 類似したDTDで表現されることが多いが, 完全には一致していないことがほとんどである。そこで, 共通の上位DTDからの派生による各アプリケーションでのDTD開発[文献12)], 又は共通するDTD部品を用いた各アプリケーションでのDTD開発[文献13)]などが検討されている。

(b)のアプリケーションの例として, 半導体データシートを配布してそのデータを使ってクライアントで設計支援ツールを実行するシステムを挙げることができる。(a)の場合と同様に, クライアントの処理系と半導体メーカが提供する半導体データシートとは, データの構造と記述方法とに関して予め合意しておく必要がある。半導体データシートについては, ECIX(Electronic Component Information Exchange)というプロジェクトが活動を行い, DTDの定義などを行っている[文献14)]

(c)のアプリケーションのためには, 文書情報選択を可能にするための, その文書に本質的な特徴を記述する文書関連情報(メタデータ)を文書毎に記述する必要がある。

5. むすび

文書情報は紙から解き放たれることにより, 急速にその活性度を高め, これまでの文書流通系からネットワーク環境に進出して, ハイパメディア化, マルチメディア化, 機械可読化などの変貌を遂げている。XMLは, これらの新しい文書技術のキーワードとして, 業界に受け入れられつつある。その結果予想されることは, ネットワーク環境における膨大な情報量の文書の氾濫である。氾濫とは言っても, 高度に発達したツールによって適切に作成され, 適切にアクセスされる文書の氾濫である。既にその兆候は, 日々の作業の中で占めるEmail対処時間の増大に見ることができる。

結局問われるのは, それを最終的に処理する人の能力であり, 今後期待される技術は, 人の興味と能力に応じて電子化文書情報をフィルタリングし, それを適切なフロー制御のもとに人の脳に送りとどけるツールということになりそうである。

文献