マルチリンガル文書のマルチリンガル表現 1997-10-17 小町祐史(こまち ゆうし) 松下電送 技術研究所 概要 マルチリンガル文書がクローブアップされている意義と背景を考察し, 電子化文書においてマルチリンガルを可能にする要素を明らかにする。さらにマルチリンガル電子化文書を交換するために必要な技術を特にフォーマティングに焦点を当てて紹介する。 1. マルチリンガルへの要求 インターネットは, 特にそのサービスであるメールとウェブとによって, 文書交換を極めて低価格に可能にし, しかもその交換(interchange)サービスの範囲を地球規模に拡大した。つまり, 少なくとも文書交換操作の段階では, 国と国との政治的, 文化的境界を意識することなく, 文書交換することを容易にした。 インターネットの黎明期においては, 国際間メールの利用者達は, 特に意識することもなく, 国際流通言語として広く使われている英語を使い, ASCII文字によって文書を記述してきた。それは, ツールがそれしかサポートしていないことに依るものであったかも知れない。 しかしこの通信手段の利便性が多くの人に認められるようになると, 利用者達は自分が最も使い慣れた言語で記述した文書を, インターネットによる文書交換の対象とし, その言語に適した表記で可視化することを望むようになった。各国のこの要求を満たすために, インターネットのツールはマルチリンガル対応を目指すことになった。既に多くのブラウザが, マルチリンガル対応をうたい文句にしている。 しかしこの段階のほとんどのツールは, メニュー選択によって各種の言語(というより各種の符号化文字集合)への切替えを行う, マルチローカライゼーションともいうべきものであり, 1文書または1ページに各種の言語部分を含む(注1)ものではない。もちろん英語ともう一つの言語を1文書中に含むバイリンガル文書は以前からサポートされている。 ************************************** 注1: これをオムニリンガルといって, 前者のマルチリンガルと明示的に区別する人もいる。 ************************************** インターネットによって不明確にされた文書交換における国境意識, 文化圏意識は, 複数の文化, 言語を含む新たな論理的テリトリーを構成し, その範囲(多言語文化圏)で交換される文書に対して, 1文書または1ページに各種の言語部分を含むという意味でのマルチリンガルが求められ始めている。例えば, 多言語文化圏における会議の参加者リストは, 英語表記だけでなく各参加者名の固有名詞としての原語表記が求められることが多い。 シンガポールのように複数言語を国語とする国では, 以前から1文書中に複数言語を含む文書が使われており, その電子的な交換に際しても, 複数言語表記のままの扱いが望まれている。 2. 電子化文書による機能分化 文書は人の思想, 意志を言語によって表現したものを文字列等で時間的に固定したものと考えることができる。従来は, その固定化は紙などの安定なサブストレートの上で行われ, 記憶(storage)と表示(presentation)とが同時に行われると共に, サブストレートの移動によって交換(interchange)も行われた。 表示には, 読み易さを高めるための工夫が施され, 言語ごとに多くのタイプフェース(書体)が開発され, 組版スタイルが考案された。紙サブストレートを用いた表示の中でも特に可搬性と記述位置特定性に優れた“ページもの”については, ページという限られた領域上で文字列等を読み易く配置するためのページスタイルがほぼ確立している。 文書の作成を効率化するために電子的な手法が取り入れられるようになると, 紙などのサブストレート上に縮退していた記憶, 表示, 交換の各機能は独立に扱えるようになり, しかも, 表示のために可視化した文書画像データだけでなく, それを生成する途中の段階の, 未だフォーマット指定を付けていない文書内容そのもののハダカの符号化文字列と, それを読み易く表現するためのフォーマット指定情報とを分離して扱うことも可能になった。 ハダカの符号化文字列情報は, 人間の思考をシーケンシャルに出力したままの素データに近く, 文書を作成する過程の第一段階の内容である。これを他の人に分かりやすく示そうとすると, フォーマットを指定し, それに従った処理を施す必要がある。しかし著者自身による推敲のためには, この文字列情報のままでも充分であることが多い。 フォーマット情報は, 原則として文書情報の受け手としての人を対象としており, 文字列のセマンティクスを人が理解し易くするものである。通常は, 文字列が表現するセマンティクスに応じた論理的構造化が文字列に対して施され, この構造化によって定義される要素に対応したフォーマット指定が行われる。 電子化文書におけるこれらの情報区分を整理すると, 図1のA.のようになり, それぞれに関してマルチリンガルの検討が必要である。 最近のインターネット環境では, 検索ロボットのような機械による文書の読み取りが行われており, それを容易にするための補助情報として, 言語指定情報などの付加も求められるようになっている。1文書中に複数の言語指定を行うことによって, その文書はマルチリンガル(オムニリンガル)文書として機械に認識される。最近では, 言語指定とは別にスクリプト指定を与える必要性も指摘されている[1]。例えば日本語文書であっても, ラテンアルファベットを用いたローマ字表記部分がこれによって仮名漢字表記部分と明示的に区別される。図1にはB.としてこの情報を附記した。 A. 生成段階による文書情報区分 −┬−−−−−−−−−−−−−− ├− 1. 内容の符号化文字列 ├− 2. 論理的構造記述情報 │ SGMLタグなど ├− 3. フォーマット指定情報 │ グリフ指定 │ 組み指定 │ レイアウト指定 └− 4. 図などの補助情報 B. 機械読み取り等のための補助情報 言語指定 図1 マルチリンガルを考える上での電子化文書情報の構成 3. 文書情報の構成段階でのマルチリンガル 機能分化された電子化文書は, 各生成段階で記憶可能, 交換可能であり, マルチリンガルというコンセプトはその各段階に適用可能である。 人による読取りを行う文書を考えるとき, 符号化文字列の内容判断から言語が特定され, その後にセマンティクスが理解される。図などの補助情報または適切なフォーマット指定があると, その理解が容易になる。フォーマット指定は, 言語やそれに関連する文化的背景と密接な関係があり, マルチリンガル文書の交換においては, 言語固有のフォーマットおよび各種言語に共通するフォーマットを指定し, それを送り手と受け手が共通認識できるメカニズムとしてのフォーマット指定属性が望まれる。 文書交換環境で受け手と送り手が情報内容を正しく共有するためには予めの合意つまり規格が必要となる。インターネットのように広く分散した環境では, それは広域規格または国際規格として合意される必要がある。マルチリンガル文書を広く交換するためには, 各生成段階で例えば次のような情報や機能の標準化とその実装が必要となろう。 3.1 内容の符号化文字列文書 (1) 幾つもの符号化文字集合を切り替える指定情報, または (2) 必要な文字をカバーする符号化文字集合の利用 ISO/IEC 10646(JIS X 0221)のBMP(基本多言後面)やUnicodeは, この(2)の充足をある程度可能にするものであり, その背景, 意義および今後の方向性について, 本連載のこれまでのIssues[2],[3]が明らかにしている。 3.2 論理的構造化文書 (1) 対訳などにおける対応する他言語記述部分へのハイパーリンク 実用的なマルチリンガル文書に見られる論理的構造をInterlaced型とSeparated型とに分類し, その構造記述を行う方法について文献[4]が明らかにしている。 3.3 フォーマット済み文書 (1) 言語固有のフォーマット 表記方向, 組み方向, デフォルト書体, 並びモード, グリフ指定などに代表されるフォーマティング機能は, 文書内容の言語に対する依存性が高く, 言語圏固有の発達を遂げてきた。文書の送り手が意図するこれらのフォーマティングをそのまま受け手に伝えるために, 共通性のある属性として, これまでに幾つかの規格がその規定の中に取り込んでいる([5],[6])。 (2) 複数言語の混在に伴うフォーマット 並び線オフセット, タイプフェースの組み合わせ, 組み方向の異なるレイアウトなどは, 複数の言語による記述部分を1文書または1ページの中にもつマルチリンガル文書をフォーマットする際に配慮すべき課題, つまり混植の課題として従来の組版技術の中で検討されてきた。このような文書を電子的に交換する場合には, それぞれに対応する属性を与え, その値を文書の中で使用される言語の組み合わせごとに設定する必要がある。 4. マルチリンガル文書のフォーマット 4.1 言語固有のフォーマット (1) 表記方向と組み方向 フォーマット指定を受ける段階の文書では, 文字の可視化抽象表現としてのグリフ(Glyph)を用いる。国際標準化機構の技術委員会 ISO/IEC JTC1/SC18(文書の処理と関連通信)の文書モデルが, このコンセプトを明らかにしている。 グリフはグリフ座標上に図2のように展開され, 現グリフの送り点に次グリフの位置決め点を配置するようなグリフ配列によって行を形成する。このグリフ座標上の位置決め点から送り点への方向を示す属性が表記方向(writing mode)であり, 表1に示すこの属性の値によって, 各種の言語による文書記述に用いるグリフ配列に対処することを可能にする。 *********** 図2 ******************** 図2 グリフ座標系におけるグリフの位置決め点と送り点 (JIS X 4161 より) 表1 表記方向属性の値 属性値 文書記述においてこの属性値をよく使う言語 −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 右向き(LEFT-TO-RIGHT) 英語 左向き(RIGHT-TO-LEFT) ヘブライ語 下向き(TOP-TO-BOTTOM) 日本語 組み方向は組版における行構成方向(縦組み, 横組み, 特殊な斜め組みなど)であり, 表記方向との関係を図3に示す。組み方向と表記との組み合わせにより, 各種言語記述の多様なフォーマティングが可能となる。 *********** 図3 ******************** 図3 組み方向と表記方向の関係 (2) 並びモード グリフを連続して配置し, 行を形成するときのグリフ配列の基準点(位置決め点または送り点)の軌跡を並び線(alignment line)という。日本語組版では, 仮想ボディの中心に並び線を通すことが多い。仮想ボディ中の並び線の位置付けによって, 並びモード属性を定義し, 各種言語の文書の中でしばしば用いられる属性値を表2のように与える。 表2 並びモード属性の値 属性値 文書記述においてこの属性値をよく使う言語 −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− センター並び 日本語 ベース並び 英語 トップ並び ヒンズー語 (3) グリフ指定 電子化文書で使われるフォント情報の交換を可能にするため,フォントリソースのデータ構造とその交換フォーマットを規定するISO/IEC 9541(JIS X 4161〜3, フォント情報交換)は, さまざまなタイプフェース(書体)に基づく多様なグラフィックシンボルをなるべく一般的扱う必要性から,デザインに依存しない抽象化されたグラフィックシンボルとしてのグリフのコンセプトを導入している。  グリフはグリフ識別子(Glyph Identifier)によって識別される。文字符号化表現と異なり,その値は規格としては規定しない。国際規格 ISO/IEC 10036が,グリフ識別子とグリフ集合識別子の登録手続きを規定しているだけである。これはグリフの次の特徴に基づく。 * 一つの文字符号化表現に幾つものグリフが対応し得ると共に,文字符号化表現に対応しないグリフも存在し得る(誤字,新造文字,または文字の一部に対応する抽象形状表現など)。その結果グリフは無限集合を形成する。 * グリフは時代と共に変化し,その結果累積されるグリフの数は増加を続ける。 ページにフォーマットされた文書情報を扱う標準ページ記述言語(Standard Page Description Language: SPDL)[7]もグリフを用いて文字の視覚的な表現データを特定する。グリフ識別子を指定して, オペレータShowGlyphを実行すると, その識別子に対応するグリフ像(Glyph image)が出力される。 SPDL処理系の中で各グリフの指定にグリフ識別子を使うと効率が悪いので, 一連のオクテット列を0から255までの整数の並びとして解釈し, 各整数値またはその組合わせからグリフ識別子を決定するグリフ指標対応表(Glyph Index Map)を, SPDLは備えている。グリフ指標対応表は入替え可能であって, 各種のグリフに対応可能になっている。 SPDLが扱う実際のグリフ形状表現(Glyph shape representation)を含む個々のフォント(基底フォント, Base font)は, 256個までの要素から成るグリフ集合にタイプフェースを適用したものである。漢字フォントのように大きなグリフ集合を扱う場合には, 複数の基底フォントを階層的に組合わせた複合フォント(Composite Font)を使用する。 複合フォントからグリフを選択するマッピング方式には, 2バイトを単位とし, 最初の1バイトを用いて複合フォントの下位フォント群から一つの基底フォントを選択し, 次の1バイトによって基底フォント中のグリフを特定する8/8写像の他に, 1/7写像, 9/7写像, インターバル写像, エスケープ写像などが用意されている。 4.2 マルチリンガル混植 (1) 並び線オフセット 1行の中に並びモードの異なる言語部分を含む組版においては, それぞれの並び線をそのまま直結してグリフの配列を行うと, 言語部分の境界に段差ができて, 見苦しい。これを避けるために, 各並び線の間にオフセットを設けて, 視覚上の段差をなくす必要がある(図4参照)。ISO/IEC 9541-1では, 並び線オフセット(alignment line offset)と呼ぶ属性をフォント資源にもたせることによって, マルチリンガル混植を行った文書の交換におけるフォーマット情報の保存を可能にしている。具体的な属性値については, ISO/IEC 9541は規定を設けてなく, 運用上のガイドラインが求められている。 *********** 図4 ******************** 図4 漢字とラテンアルファベットとの混植における並び線オフセットの例 (JIS X 4161 より) (2) タイプフェースの組合わせ 本文中に複数の言語部分を含むマルチリンガル文書では, 各言語部分に用いるタイプフェースの間にデザインの整合が求められる。タイプフェースは, 言語圏ごとのフォント作成者によってほとんど独自に開発されてきたものであり, 対象言語圏を異にするタイプフェースの整合の検討は, 限られた組合わせを除いて, 未だ不十分である。 ISO/IEC 9541-1のAnnex Aは, 対象言語圏が限定されてはいるが, この問題に対してとりあえずの解を与えている。つまり,タイプフェースのデザイン分類を規定し, フォントリソースのデザイングループ属性の値を与えることによって, フォントの代替を行う場合,または混植に際して類似のデザインを組合わせる場合のガイドラインになる.  分類は,クラス,サブクラス,特定グループの3階層区分に基づいて行われ,それぞれの階層の分類値を示す十進数の組合わせ(NC.NS.NG)で表示される.最上位階層のクラスは次のように NC = 1〜8に分類されている. NC = 1. Uncials class 2. Inscriptionals class 3. Blackletters class 4. Serifs class 5. Sans serif class 6. Scripts class 7. Ornamentals class 8. Symbols and Ornaments class 5. むすび マルチリンガル文書の交換に際して送り手と受け手が文書を共有するために必要となる要素を, 特にフォーマティングについて紹介した。ここに示した多くの属性はすでにISOやJISなどの標準化の委員会で検討され, ある範囲で規格として制定されている。 しかし実際のマルチリンガル文書交換環境で, その詳細属性にどんな値を適用して運用すると適切であるかについては検討が不十分であり, 例えば次のようなグループで議論が続けられている。 (1) 国際的情報交換標準データ研究開発委員会, 国際情報化協力センター (2) 文書交換・実装規約小委員会, 日本事務機械工業会 (3) INSTAC マルチメディアハイパメディア調査研究委員会 (XML SWG), 日本規格協会 (4) 日中韓文書処理会議(CJK-DOCP) 文献 [1] R. Jelliffe, A proposal for XML Language and Written-Script Identifiers, w3c-xml-sig@w3.org, 1997-10-7. [2] 松岡, マルチリンガル文書処理と漢字, bit, 20, 10, 1997-10. [3] 小林, ----, bit, 20, 10, 1997-11. [4] Y.Komachi, S.Imago and S.Tsuchiya, A Representation Method for the Multilingual Hyperdocument using HyTime, 1st Intnl Conf. on Appl. HyTime, 1994-07-26. [5] ISO/IEC 9541-1, Font Information Interchange - Part 1: Architecture, 1991-09. [6] ISO/IEC 10179, Document Style Semantics and Specification Language (DSSSL), 1996-04. [7] ISO/IEC 10180, Standard Page Description Language (SPDL), 1995-12.