文書記述言語等(SGML, HTML, XML ...)の標準化
-- JTC1/SC34および関連グループの活動 --

小町 祐史
松下電送システム(株)

1. はじめに

文書の構造を記述する言語として, SGML(Standard Generalized Markup Language, 標準一般化マーク付け言語)[文献1)]が国際規格になったのは, 1986年であった。この言語は, さまざまな組織の出版物の記述に採用され, 多くのツール類が開発されてきたが, その圧倒的な普及は, HTML(HyperText Markup Language)[文献2)]と呼ばれるSGMLのDTD(Document Type Definition, 文書型定義)がウェブ環境における文書記述に用いられたことに始まる。

HTMLは, その単純さが文書記述を極めて容易にし, しかも関連ツールの開発も容易にして, 大量のハイパテキストがネットワーク上に蓄積され, また逆にこれがインタネットの普及を促進することにもなった。しかしこの大量普及の当然の結果として, HTMLでは記述できない, または記述しにくい文書がクローブアップされることとなり, HTMLと同様の手軽さでSGMLと同様の文書記述を行いたいというユーザ要求が強まってきた。

この要求に応えることを目的としてW3C(World Wide Web Consortium)が開発した記述言語がXML(Extensible Markup Language, 拡張可能なマーク付け言語)[文献3)]であり, SGMLのサブセットに位置付けられる。つまりXMLは, HTMLでは扱えない文書構造をDTDを定義することによってサポートし, これまでのHTML処理系と同様に, DTDが与えられなくても処理を可能としている(図1参照)。W3Cは1996年末に最初のXMLドラフトを発表すると共にその更新を続け, 1998年2月にその勧告を制定した。その後は, 幾つものXML関連規定(図2参照)の開発を行なっている。

図3に, SGML, HTML, XMLの開発の時間的推移を整理する。

ここでは, これらの文書記述言語とそれ関連する規格類との国際および国内における標準化動向を概観し, それらの今後の応用に言及する。

図1 HTMLとXML/SGMLの処理系の入出力

図2 W3CのXML関連勧告 (W3C: "Extensible Markup Language (XMLTM) Activity"より)

                SGML                  HTML                      XML
        ------------------------------------------------------------------------
             ISO 8879(1986-10) 
             AM1 (1988-07)
                                     RFC 1866 (1995-11)
             TC1 (1996-12)
                                     HTML 3.2 (1997-01)
                                     HTML 4.0 (1997-12)
                                                              XML 1.0 (1998-02)
                                     XHTML PR (1999-08)

図3 SGML, HTML, XMLの開発の時間的推移
(AM - Amendment, TC - Technical Corrigendum, PR - Proposed Recommendation)


2. 国際の標準化動向

2.1 SGML/XMLの標準化戦略

XMLの基本となったSGMLは, ISOによって開発・制定されて以来, 利用者グループ等の支援の下に緩やかな普及を続けてきた。そのコンセプトは,ISOのその後の活動によって, HyTime(Hypermedia/Time-based Structuring Language)[文献4)]としてさらに一般化されると共に, DSSSL(Document Style Semantics and Specification Language)[文献5)]などのフォーマット指定言語にも踏襲され, さらに一連の関連規格類の整備によってSGML利用環境が充実してきた。

SGMLのサブセットとしてW3Cによって開発されたXMLは, 関連業界の急速なXML導入によってその普及がさらに加速化されている。幾つかのXML関連規定は, 原案段階で実装され市場にリリースされている。このXMLの普及と業界の関心は, ISOにもフィードバックされ, SGML, HyTimeなどへの部分的再検討が行われている。その結果については, 国内の規格(JISまたは標準情報(TR))としても国際整合をとる必要に迫られている。

2.2 ISO/IEC JTC1/SC34の動向

一連のSGML関連規格類の開発を担当してきたISO/IEC JTC1/SC18/WG8は, 1998年のJTC1再構成の結果, JTC1/WG4としての活動を経て新たな技術委員会JTC1/SC34になり, SGML関連規格類はその作業グループWG1が担当することになった。

これらのグループは, W3Cとは以前から積極的なLiaison対応を行っており, 会議には常にW3CからのLiaison代表が参加している。

1997年からは, XMLのコンセプトをSGMLに取り入れてXMLをSGMLの完全なサブセットに位置付けるためのTechnical Corrigendum(TC)が提案され, 既にTC2(WebSGML)[文献7)]が投票で承認された。1998年になってからは, TC3[文献8)]の審議が開始され, 投票によるその承認の後, TC2とTC3とを統合したテキスト[文献9)]が出版される予定になっている。

このSGMLのXMLへの歩み寄りに関して国内では, TC2/TC3の統合テキストを翻訳したSGML追補2が準備されつつある。XMLとの整合のための検討は, HyTimeに関しても行なわれている。

2.3 ISOの作業そのもののSGML/XML化

ISOの作業そのものの電子化を検討するために, ISO/ITSIG(Information Technology Strategies Implementation Group)が設立され, 規格開発に伴う一連のワークフローの見直しと電子化による効率向上に必要な作業のガイドライン作成が行われている。

1998年11月には東京でITSIG Workshop[文献10)]が開催され, 多くの規格開発関係者が参加した。同時に開催された非公式の委員会では, XML導入のためのサブグループについても検討されている。

3. 国内の対応

3.1 JISの関連対応

SGMLを含む文書の処理と記述の言語に関して, ISO/IEC JTC1(SC18, SC34)が開発した規格類の翻訳とJIS(または標準情報(TR))化の作業は, 1991年以来, 日本事務機械工業会のDDFD委員会(文書記述・フォントJIS原案作成委員会)が担当してきた。1997年からはこの作業は, 日本規格協会のDDFD委員会(標準記述言語分野の国際整合化調査研究委員会, 1999年以降は, 文書処理及びフォントの標準化調査研究委員会)に移され, 現在に至っている。

3.1.1 JISの出版

XMLの環境整備に有効と思われるSGMLに関連する最近の原案作成状況は, 次のとおりである。

1997年度までの翻訳作業により, 次のJISが制定・出版されている。

番号題名制定対応国際規格
TR X 0004日本工業規格, 国際規格...(のDTD)1997-07(公表)ISO/IEC TR 9573-11:1992
JIS X 4172SGML公開テキスト所有者識別子1998-01ISO/IEC 9070:1991
JIS X 4151 追補1拡張命名規則1998-01(改正)ISO 8879:1986/TC1:1996
JIS X 4153文書スタイル意味指定言語(DSSSL)1998-03ISO/IEC 10179:1996

注1: これらの前にも, JIS X 4151-1992(SGML)に続いて次のJISが発行されている。

番号題名制定対応国際規格
JIS X 4161フォント情報交換 第1部 体系1993-07ISO/IEC 9541-1:1991
JIS X 4162フォント情報交換 第2部 交換様式1993-07ISO/IEC 9541-2:1991
JIS X 4163フォント情報交換 第3部 グリフ形状表現1994-09ISO/IEC 9541-3:1994
JIS X 4155ハイパメディア及び時間依存情報の構造化言語 (HyTime)1994-07ISO/IEC 10744:1992
JIS X 4171SGML文書交換様式(SDIF)1996-04ISO 9069:1988
JIS X 4154標準ページ記述言語SPDL1997-10ISO/IEC 10180:1995

3.1.2 原案作成

最近のDDFDでの作業により, 翻訳原案(または素案)を作成したISOの規格類は次のとおりである。

3.1.3 翻訳作業中の案件

現在次の規格を翻訳している。

注2: ISO-HTML
W3C(World Wide Web Consortium)が開発したHTML(ハイパテキストマーク付け言語)4.0の勧告の節2,5〜15,17,24の規定をそのまま追認するものであり,1997年7月を期限とするCD投票の後,主としてonline会議でFCDテキストの編集が行なわれてきた。1999年2月期限のFCD投票の結果,ISO/IEC FCD 15445が承認されて, FDISテキストが作成された。

注3: Topic Map
ハイパリンクをもつ電子文書においてはインデックス対象を一貫性をもって記述する必要があり,関連する文書セットとそこでのインデックス対象としての共通トピックを識別するための体系形式を規定し,関連するトピック間の関係を規定する。1999年2月期限のFCD投票の結果,ISO/IEC FCD 13250が承認されて, FDISテキストが作成された。

3.1.4 JISの普及活動

文書関連規格類の普及のための活動も行なわれている。例えばSGML/XML文書のスタイル指定のためのDSSSLについては, 日本規格協会 INSTACの電子出版技術調査研究委員会および高速Webにおける標準化に関する調査研究委員会においてDSSSL支援のための標準情報(3.2の注4参照)

が開発された。

TR X 0010は, SGML又はXMLで記述された日本語のビジネス文書および一般書籍に対して, DSSSLを用いてフォーマット指定を行う場合に用いるDSSSLライブラリを提供する。利用者は, このライブラリを用いることによって, 段組を変えたり要素の見栄えを変え, 日常頻繁に用いるフォーマットのDSSSL指定を行うことができる。

このTR X 0010は, まずDSSSLライブラリで扱う範囲の組版指定要素及びその指定パラメタについて規定する。TR X 0010が規定するDSSSLライブラリは次の4部分から成る。

(1) 詳細パラメタ生成プログラム
DSSSLライブラリは, 日本語組版の標準的なデフォルト値を用意しているが, このデフォルト値では満足できない場合に, 簡易パラメタに必要な指定を与える。この指定は, 詳細パラメタ生成プログラムで解釈され, 詳細パラメタに変換される。
(2) 関数群
組版指定要素に対応するDSSSL記述上の関数群であって, 詳細パラメタで与えられた各種の指定をもとにconstruction ruleで使用するDSSSLの流し込みオブジェクト生成関数及びそのサポート関数から成る。
(3) ページモデル群
この標準情報(TR)が提供するDSSSLのページモデル記述であり, 詳細パラメタで与えられた各種の指定を使って対応するページモデルを与える。
(4) 特定DTDルール群
特定DTDに対応した具体的なDSSSL指定を与える部分であり, 詳細パラメタ, 関数群及びページモデル群を利用して具体的なDTDのタグに対応してDSSSLの流し込みオブジェクトを生成していくためのconstruction ruleを記述している。

3.2 W3C勧告の標準情報(TR)

W3Cが開発しているXML関連の勧告(Recommendation)については, 工業技術院の委託を受けた(財)日本規格協会情報技術標準化研究センター(INSTAC)のマルチメディア/ハイパメディア調査研究委員会(1998年度以降は, 高速Webにおける標準化に関する調査研究委員会)が調査研究を行い, 利用者要求に基づいて勧告等の翻訳による標準情報(TR)の原案作成を行っている。

注4: 標準情報(TR)は, 技術標準等の早期公開によるJIS化の前提となるコンセンサスの形成を促進することを目的として1996年8月に制定された規定であり, JIS化に至る前段階における技術標準等の状況を積極的に公表することにより, オープンな議論を促進し, 関係者間の幅広い意見を集めるものである。未だ国際規格(ISO, IEC)にはなっていないXMLなどの技術規定を国内に公表するために適切であり, 既にJava言語規定(標準情報 TR X 0005)などが公表・出版されている。

3.2.1 XML

XML(1997-12版)の翻訳原案は, 日本工業標準調査会情報部会の審議・承認を経て1998年5月に公表され, 日本規格協会からTR X 0008:1998[文献6)]として出版された。XML勧告(1998-02版)に適合した標準情報(TR)改訂原案は, 1998年度のINSTACにおける高速Webにおける標準化に関する調査研究委員会によって行われ, 1998年末頃にW3Cが発表するerrataの内容を反映させた後, 1999年2月に工業技術院に提出された(TR X 0008:1999として, 1999年5月に公表)。

TR X 0008:1998の解説に含まれていた日本語プロファイルは独立して, 別の標準情報(TR X 0015)の原案とする(1999年5月に公表)と共に, その英語版はW3Cに提案される。

3.2.2 XML関連規定

W3Cが開発しているXMLに関連する一連の規定の中で,

については, 当初1998年度の活動の中でTR原案作成を行う予定であったが, W3Cの作業の遅れを考慮して, 1999年度以降の作業に位置付けている。

DOM1のTR原案(TR X 0019)は, 1998年度末に完成し, 既に工業技術院に提出済みである。

CSS(Cascading Style Sheets)については, INSTACの中の別の委員会, つまり電子出版技術調査研究委員会 (WG1)が工業技術院の委託を受けてTR原案作成を行った。既にCSS1の翻訳は, TR X 0011:1988[段階スタイルシート水準1(CSS1)]として出版されている。 CSS2については, 同委員会が1999年度の作業の中でTR原案作成を行っている。

3.2.3 HTML

W3Cが開発したHTML(Hypertext Markup Language)は, 国際規格としての承認を得るため,ISO/IEC JTC1/SC34に提出(ISO/IEC 15445)されてレビューを受け, JTC1メンバボディの投票を受けている。

そこでこのISO-HTMLは, SC34関連規格のJIS化の委員会(文書処理及びフォントの標準化調査研究委員会)で翻訳され, JISとして制定される予定である(3.1.3参照)。ISO/IEC 15545のエディタは, ISO/IEC 15445 Users Guideを用意しており, JISではそれを解説に含める予定である。

ISO-HTMLは, W3C勧告のHTML4.0の追認であり, その記述もHTML4.0を参照するだけになっている。そこで同委員会では, HTML4.0の日本語での参照を可能にするため, 他のW3C勧告と同様に標準情報(TR)としての公表のための作業も予定している。

3.2.4 対応状況一覧

これらの対応状況を次の表に整理する。

原規定略称国内標準化ステータス対応国内委員会
XML(1997-12)TR X 0008:1998 公表済みマルチメディア/ハイパメディア調査研究委員会, XML-SWG
XML(1998-02)TR X 0008:1999 公表済み高速Webにおける標準化に関する調査研究委員会, XML-SWG
(XML 日本語
プロファイル)注5
TR X 0015:1999 公表済み高速Webにおける標準化に関する調査研究委員会, XML-SWG
NamespacesTR X 0023 部会(99/09)審議高速Webにおける標準化に関する調査研究委員会, XML-SWG
XLink/XPointer素訳中高速Webにおける標準化に関する調査研究委員会, XML-SWG
XSL/XSLT原規定レビュー中高速Webにおける標準化に関する調査研究委員会, XML-SWG
RDF Mdl & SyntxTR X 0022 部会(99/09)審議高速Webにおける標準化に関する調査研究委員会, WG3
RDF schemas原規定レビュー中高速Webにおける標準化に関する調査研究委員会, WG3
DOM1TR X 0019:1999 公表済み高速Webにおける標準化に関する調査研究委員会, WG3
CSS1TR X 0011 公表済み電子出版技術調査研究委員会, WG1
CSS2素訳中電子出版技術調査研究委員会, WG1
SMILTR X 0014:1999 公表済み高速Webにおける標準化に関する調査研究委員会, WG3
HTML4.0素訳中文書処理及びフォントの標準化調査研究委員会(DDFD)

     注5: 国内開発

4. 文書記述言語の今後

広い意味での文書の構造を記述する言語の今後の主流となると思われるXMLについて, その将来の方向を位置付ける幾つかのトピックを紹介する。

4.1 機械可読文書

XML開発の背景には, 少なくとも次の2項目がある。

この(2)の要求こそが, 最近の電子化文書に求められる機械可読文書としての機能である。(2)で求められているアプリケーションは, 表面的に次の3タイプに分類[文献11)]される。

(a)のアプリケーションのためには, 連携させる文書情報を予め合意した互いに整合し得るDTDによって記述する必要がある。もともと連携させたい文書データは類似の構造をもち, 類似したDTDで表現されることが多いが, 完全には一致していないことがほとんどである。そこで, 共通の上位DTDからの派生による各アプリケーションでのDTD開発[文献12)], 又は共通するDTD部品を用いた各アプリケーションでのDTD開発[文献13)]などが検討されている。

(b)のアプリケーションの例として, 半導体データシートを配布してそのデータを使ってクライアントで設計支援ツールを実行するシステムを挙げることができる。(a)の場合と同様に, クライアントの処理系と半導体メーカが提供する半導体データシートとは, データの構造と記述方法とに関して予め合意しておく必要がある。半導体データシートについては, ECIX(Electronic Component Information Exchange)というプロジェクトが活動を行い, DTDの定義などを行っている[文献14)]

(c)のアプリケーションのためには, 文書情報選択を可能にするための, その文書に本質的な特徴を記述する文書関連情報(メタデータ)を文書毎に記述する必要がある。

4.2 連続メディア/放送

Web上での最近のXML応用のもう一つに, ファイルのバッチ転送を拡張したテレビ放送の機能と形態の導入がある。既存の放送をインタネットを介して配信する試みは既に始まっており, 3.2.4に示したSMIL(同期化マルチメディア統合言語)がW3Cによって開発された。SMIL 1.0はWeb上でテレビ番組のような連続メディアを扱うことを容易にし, 自然な継続時間をもつメディアの放送形態のサポートを可能にしている。

つまりSMIL 1.0はXMLのタグセットであって, 次の機能を実現している。

しかしこれによって実現されるサービスは, 従来のテレビ放送に及ぶものではなく, しかもこれまでWeb環境で扱われてきた離散メディア(静止文書)との統合も不充分である。

これらの問題を解決するために, W3CではSMIL 1.0の拡張版(とりあえずSMIL Bostonと呼ばれる)の開発が行なわれている。既ににWD[文献15)]が公開され, テレビ放送との統合, アニメーション機能, 時間軸に沿ったプレゼンテーションのナビゲーションに対するサポートの向上, SMILマーク付けの他のXMLベースの言語とのインテグレーションなどが盛り込まれつつある。これによって, 間近に迫ったデジタルテレビ放送にマルチメディアオブジェクトを統合することが容易になるであろう。ここでXMLは, SMIL 1.0の場合と同様にセマンティクスの表現手段として利用される。

5. むすび

SGMLに代表される文書記述言語は, ISOと利用者グループの地道な活動によって体系的に整理され, そのアプリケーションを広げてきた。それがHTMLによってWeb環境に利用されることによって, さらに利用者層を広げることになり, XMLが開発された。このXMLは, 4.2に示した活動等によってディジタル放送のコンテンツ記述を可能にすることにより, さらに一桁以上多くの利用者を獲得することが期待されている。(既に電気通信技術審議会のデジタル放送システム委員会は, BSディジタル放送の関連規格をXMLに一本化することを発表[文献16)]している。)

ディジタル放送においては, 従来のテレビ放送のような連続メディアだけでなく, 新聞情報のような静止文書も統合されることになり, XML等の記述言語で書かれた多様かつ大量なコンテンツが日々一般家庭に届けられ, 視聴者または購読者は, 記述言語で書かれたコンテンツの構造を参照するブラウザを用いて各人各様の見方, 読み方でそれらのコンテンツをレビューすることになろう。

文献