7-6 ISO/IEC JTC1/SC34 文書の処理と記述の言語
Document Processing and Description Languages

小町 祐史
大阪工業大学

1. 担当範囲と組織構成

JTC1/SC34は, 広義の文書情報の交換に用いられる文書データの構造記述, ハイパリンク記述, スタイル指定, フォーマット済み文書記述およびそれらに必要なフォント情報に関する標準化を担務とする.カナダからのセクレタリアートの辞意(2007年2月)に応えて日本がセクレタリアート引受けの提案を行い,それがJTC1で承認された.議長は, 2007年12月までJ. Mason(US),それ以降,Sam G. Oh(韓国).2007年度末には,39ヶ国のPメンバと16ヶ国のOメンバが参加して, 次の作業グループ(WG)が組織されている.

WG1(マーク付け言語) -- コンビナ: 2007年12月までM. Bryan(UK),それ以降,村田真(日本).
SGML, XMLに代表される情報記述言語およびそれに関連するサブセット, API, 試験, 登録などの規格を担当する.

WG2(文書情報表現) -- コンビナ: 小町祐史(日本).
文書のフォーマティング, フォント情報交換, フォーマット済み文書記述およびそれらのAPIを規定する規格を担当する.

WG3(情報関連付け) -- コンビナ: 2007年12月までS. Pepper(ノルウェー),それ以降,P. Durusau(US).
文書情報のリンク付け, 番地付け, 時間依存情報表現, 知識処理および対話処理を規定する規格を担当する.

2. 主要プロジェクトの進展状況
2.1 WG1関連
2.1.1 文書スキーマ定義言語(DSDL, ISO/IEC 19757)

XML等で表現されるデータの構造, データ型, データ制約の定義を行うDSDLについては,パート2のRELAX NGの規定がまず2003年末に発行された後,各パートが次々と発行されて,DSDLとしての体系が確立した.主要パートのステータスを表1に示す.

表1 DSDLの主要パートのステータス
パート表題ステータス
1OverviewCD
2Regular-grammar-based validation -- RELAX NG2003-12発行
2 Amd.1RELAX NG Amendment 1: Compact syntax2006-01発行
3Rule-based validation -- Schematron2006-06発行
4Namespace-based validation dispatching language2006-06発行
7Character repertoire description languageFCD
8Document semantics renaming language (DSRL)FDIS
9Namespace and datatype declaration in Document Type Definitions (DTDs)FDIS

(1) パート2(正規文法に基づく妥当性検証−RELAX NG)

パート2は,XML文書の構造および内容に関するパターンを指定するRELAX NGスキーマに関する要件を規定し,そのパターンにXML文書がどんなときマッチするかを規定する.Amd.1(Amendment 1)はRELAX NGの簡潔な非XML構文を規定する.このAmd.1に対して技術訂正(Cor.1)の投票が行われ,承認された.

(2) パート4(名前空間に基づく検証委譲言語−NVDL)

日本からFast-track手続きで提案し承認されたISO/IEC TR 22250-2(RELAX Namespace)をDSDLの体系に整合させたNVDLは, 異なるマーク付け語彙を記述するスキーマを組合せるための機構を規定する.これに対して技術訂正(Cor.1)の投票が行われ,1回目の投票では賛成投票数が不十分であり承認に至らなかったが,再投票の結果承認された.

(3) パート7(文字レパートリ記述言語)

文字レパートリ(教育漢字,常用漢字など文字の集合)を機械処理可能な形で記述するための言語である.文字レパートリの登録簿としてUnicode ConsortiumのCLDRとIANAのCharracter Set Registryを参照することにしたFCDテキストが既に承認されている.

(4) パート8(文書意味再命名言語)

XML文書に含まれる要素・属性の名前を変更するための変換テーブルを規定し,デフォルト解釈値,実体の宣言,実体の名前の変更を規定する.スキーマ中に現れる名前と文書中に現れる名前とが違う場合も,この規定に従って名前を変えてから検証手段を呼び出せば,文書の妥当性を検証できる.適合する実装を作ることは必ずしも容易ではないが,FDISテキストが作成され,投票が行われている.

(5) パート9(DTDにおける名前空間宣言およびデータ型宣言)

文書型定義(DTD)に名前空間宣言およびデータ型宣言の機能を追加するための規定である.国内にはこの機能追加をしてまでDTDを使い続けたい利用者要求はほとんど存在しないが,海外の利用者要求に基づきFDISテキストが作成され,投票が行われている.

2.1.2 規格文書の構造記述とスタイル指定(ISO/IEC TR 9573-11 第2版)

2004年4月に発行されたISO/IEC 9573-11 第2版が規定する規格文書交換のための構造記述(SGML, XML)およびスタイル指定(DSSSL, XSL, XSLT)は,ISO Directivesに従った出版部門対応の規定が多く,必ずしもエディタにとって使い易いものでない.そこで第2版の部分集合に近い規定内容をもつエディタ用の構造記述およびスタイル指定が,ISO/ITSIG(Information Technology Strategies Implementation Group)によって要求された.この要求に応えてAmd.1のプロジェクトが設立され,SC34の各WGからの要求を満たしたPDAMテキストが承認されて,PDAM投票コメントに基づいた修正を行ってDAM投票に進むことになった.

2.1.3 オープン文書フォーマット(ODF, ISO/IEC 26300)

ODF(Open Document Format for Office Applications (OpenDocument))は,Open Officeと呼ばれるオフィスソフトの文書フォーマットに使われている実装先行の規定であり,MS-Wordによるオフィスソフトの独占状態に対抗するSun Microsystems,IBMなどによって推進されてきた.これは,Sun Microsystemsによって2002年5月にOASIS (Organization for the Advancement of Structured Information Standards)に提案され,OASISのOpen Document Technical Committeeで審議されて,2005年5月にOASIS規格ODF 1.0として制定された.

これはPAS(Publicly Available Specification)のFast-track手続きを用いてISO/IEC JTC1に提出され,配布されたDIS 26300は2006年5月に反対なしで承認された.その後,日本でのこの規格のJIS化作業に際して幾つもの問題点が明らかになり,SC34のISO/IEC 26300のエディタが技術訂正案を用意して,SC34からリエゾンステートメントをOASISに送付したが,それに基づく規定の訂正作業はまだ行われていない.

2.1.4 オフィス開放形XMLファイルフォーマット(OOXML, ISO/IEC 29500)

OOXML(Office Open XML)は,MS-Wordの文書フォーマットに基づく実装先行の規定である.MicrosoftはOOXMLをEcmaに提出し,Ecmaがその技術委員会TC45でOOXMLを審議してEcmaの規定として制定した.これはFast-track手続きを用いてISO/IEC JTC1に提出され,配布されたDIS 29500は2007年9月を期限とする投票の結果,Pメンバの賛成が53.2%であったため,承認に至らなかった.そこでJTC1のルールに基づき,膨大な投票コメントに対する対処を検討するため(各国のコメントに基づいてDIS 29500を改善するため)の投票対処会議(BRM)が2008年2月にジュネーブで開催された.

このBRMにおいて,日本から提出した主要コメントのほとんどについて満足すべき対処が行われ,他国からのコメントについても積極的な対処が検討されて,アクセシビリティの改善,過去との互換性のための機構を切り出すフレームワーク,マルチパート化などに大きな改善がなされた.BRMの対処結果を考慮して,2008年3月29日を期限とする再投票が行われ,Pメンバの賛成75%を得て,この規格原案は承認された.

反対投票を行った国の中で4ヶ国はこの結果に不満を感じ,承認手続きに対して不服申立て(appeal)を行ったが,ISOのTMB(Technical Management Board)とIECのSMB(Standardization Management Board)とによってこの申立ては拒否された.したがってISO/IEC 29500は近日中に発行される予定である.

2.2 WG2関連
2.2.1 フォント情報交換(ISO/IEC 9541)

SC29によって提案されたISO/IEC 14496-22(開放形フォントフォーマット)と既存のISO/IEC 9541(フォント情報交換)との整合のために,既にWG2で作業中のISO/IEC 9541のパート1, 2へのAmd.に加えて,ISO/IEC 9541のパート3に対するAmd.のプロジェクトを新設し,パート4の規定内容と標題とを変更することになった.

(1) パート2(交換フォーマット)のAmd.2

フォント参照の拡張に関する利用者要求に応えるためのプロジェクトは,2007年12月のWG2会議で,ISO/IEC 9541-2/Amd.2のPDAMテキストに対する投票コメントへの対処に基づいてFPDAMテキストを作成した.これは2008年4月を期限とする投票で承認されている.

(2) パート1(体系)のAmd.4

ISO/IEC 9541-2/Am.2の中で使う幾つかの属性をISO/IEC 9541-1の中で定義するのプロジェクトは,2007年12月のWG2会議で,ISO/IEC 9541-1/Amd.4のPDAMテキストに対する投票コメントへの対処に基づいてFPDAMテキストを作成した.これも2008年4月を期限とする投票で承認されている.

(3) パート3(グリフ形状表現)のAmd.2

ISO/IEC 14496-22はグリフ形状表現に関する規定を含まないが,TrueType形式のアウトライン表現またはAdobe Type2 CharStrings(Adobe Type1 CharStringsの拡張仕様)によるアウトライン表現を認めている.そこでISO/IEC 9541-3/Amd.2として,Adobe Type1 CharString互換のグリフ形状表現の拡張であるAdobe Type2 CharStringの内容を扱うことにした.このFPDAMテキストに対して2008年8月を期限とする投票が行われている.

(4) パート4(開放形フォントフォーマットとの整合)

パート4のプロジェクトは,ISO/IEC 14496-22をDual-number規格としてISO/IEC 9541に含めるために設けられた.その後の検討により,ISO/IEC 14496-22とISO/IEC 9541とを整合させるために,ISO/IEC 9541の既存パート1, 2, 3の修正だけでは対応できない内容をまとめてこのパート4で扱うこととし,標題を“開放形フォントフォーマット”から“開放形フォントフォーマットとの整合”に改めた.パート4のFCDテキストに対して2008年8月を期限とする投票が行われている.

2.2.2 文書レンダリングシステムを指定する最小要件(ISO/IEC 24754)

レンダリング結果の文書スタイルを保存したまま文書を交換する際に,レンダリングシステムが共有しなければならない最小要件をネゴシェーションする必要があり,その枠組みを規定する.日本からの提案によって,このプロジェクトは作られた.2007年12月のWG2会議で,FCDテキストに対する投票コメントへの対処に基づきFDISテキストが作成された.このFDISテキストは2008年6月を期限とする投票によって既に承認されている.

2.3 WG3関連
2.3.1 トピックマップ(TM, ISO/IEC 13250)

トピックマップの規格を再構成してTM規定のマルチパート化を図る作業課題が2003年度から行われているが,最近の主要パートの動向を次に示す.

(1) パート3(XML構文)

パート3は,XML形式によるTMの具体的な交換構文を定義し,XML構文とパート2のデータモデルとの対応も定義する.TMを広く普及しているXML形式でシリアライズし,システム間で交換することを可能にする.2006年11月のFDIS投票では,日本はこれまでの要求がすべて満たされているとの判断からコメントなしの賛成を行った.ISO/IEC 13250-3は2007年3月に発行された.

(2) パート4(正準構文,CXTM)

この規格は, トピックマップの正準化のアルゴリズムを規定する.主な規定項目を次に示す.
- 位置参照の正規化
- 正準な分類順序
- データモデルから正準XML情報セットへの変換
FCDテキストの改訂が指示され,2008年中にはFDIS投票が行われる予定である.

(3) パート5(参照モデル)

2006年5月を期限とする2nd CD投票に対して,日本は,proxies, subjects等の属性を識別するのにpublished subjectを使うことなどをコメントした.2nd CDテキストは承認され,コメント対処に従ってFCDテキストが作成され,2008年9月を期限とする投票が行われている.

(4) パート6(簡潔構文−CTM)

トピックマップの手作業での作成の容易化等の要求に応えるため,簡潔なトピックマップ構文のNP(新作業課題提案)が2006年3月に承認され,CDテキストは2007年12月を期限とする投票で承認されたが,チェコ,ドイツ,日本,ノルウェー,UKから多くのコメントが提出された.12月のWG3会議でこれらのコメントがレビューされ,テキストの改訂が行われた.2008年9月を期限とするFCD投票が行われている.

2.3.2 TMによるDublin Coreメタデータ表現(ISO/IEC TR 29111)

図書館等で広く利用されているメタデータボキャブラリの一つであるダブリンコアをTMで記述することによって,ダブリンコアメタデータの主題に基づく分類,体系化が容易になり,その有益性を向上させることができる.そこで,TMでの統一された記述方法がを示すTR 29111の開発が始められた.

PDTRテキストは2007年11月を期限とする投票で承認され,日本とUKとからコメントが提出されて,2008年までにDTRを作成する計画が立てられた.

2.3.3 NP: RDFとTopic Mapsとの相互運用性のための指針

Topic MapsとRDF(Resource Description Framework,資源記述の枠組み)とは,いずれも情報資源とその中に含まれる主題を記述し,情報を見つけ易くする.しかしTopic MapsはSC34によって開発され,RDFはW3Cによって開発されていて,構造や記述するための要素を互いに異にする.このNPは,この両者の違いを吸収し,データレベルでの相互運用性を高めるための指針としてのTRの開発を目指す.しかし2008年3月を期限とする投票の結果,参加を表明したNB(National Body)の数が4ヶ国であり,プロジェクトの成立に至らなかった.

2.3.4 トピックマップ問合せ言語(TMQL, ISO/IEC 18048)

2006年10月を期限とする3rd CD投票に対して,日本は,既存の規格の拡張としての位置付けが明確でないとのコメントを提出した.この3rd CDテキストは承認され,コメント対処に従ってFCDテキストが作成される.TMQLについては,これまでCD投票が繰り返されており,FCD,さらにFDISへの早期進捗が望まれる.