3.　多言語文書の配布モデル

[ 目次 | 前 | 次 ]

3.　多言語文書の配布モデル

3.1　文書モデル

3.1.1　文書の3形態

多言語文書の配布においても、電子化文書の３形態を考慮に入れる必要がある。

（1）改訂可能な論理的文書
（2）整形情報を伴う改訂可能な文書
（3）整形済み文書

特に、文書が分散的に作成される場合、形態（1）文書と形態（2）文書の交換は不可欠である。HTMLまたはSGML/XMLは、形態（１）文書の交換を十分にサポートできる。

NOTE1:HTML-ハイパーテキストマーク付け言語
NOTE2:SGML-標準一般化マーク付け言語
NOTE3:XML-拡張可能なマーク付け言語

定義済みの整形指定を含むHTML処理システムに対して、HTMLは形態（２）文書の交換をある程度サポートできる。より複雑な整形指定が要求される場合は、XSLまたはDSSSLの使用が望ましい。

NOTE4:XSL-拡張可能なスタイル言語
NOTE5:DSSSL-文書スタイル意味および指定言語

形態（３）の文書は、実装されているPDFまたはPDLで記述可能である。PDF文書を使用する場合、圧縮データで配布することが可能である。

NOTE6:PDF-ポータブル文書ファイル
NOTE7:PDL-ページ記述言語

3.1.2　多言語化に関する配慮

今日の多くのブラウザは、「多言語」対応機能を備えている。しかし、これらの「多言語」機能は、メニューバーにある言語を選択するものである。多言語機能は、多言語化（multilingual)というよりはむしろ多地域化(multi-localization)に対応するものでなければならない。現在の機能では、異なる言語の部分を同一のページまたは文書の中に含むことができない。

インターネット環境で交換される文書は、多言語が混合した形、つまり、一つの段落やページ、文書の中に複数の言語で表現された部分がある形が要求される。これらの文書は、他の文書と区別するために真の多言語文書（real multilingual documents)と呼ばれるべきである。典型的な例は、オンライン会議での参加者リストである。参加リストの中では、各参加者名は自国の言語で表示されるべきである。

真の多言語文書は、適切な多言語整形に従って変換、表示される必要がある。つまり、多言語文書の作成、取り扱いの際は、以下の配慮が必要である。

（1）多言語レパートリーを含む符号化文字集合
（2）多言語レンダリングに必要なフォント集合
（3）多言語レンダリングのためのスタイル指定

実装のために、将来的には以下の課題について議論が必要である。

グリフ指定と代替
フォント指定と代替
フォントの埋め込み

3.2　日本語とアジア言語のフォント

3.2.1　文字の迷宮

東アジアの主要な言語　--中国語、日本語、朝鮮語--　は、2バイトコードを使用している。ASCIIに代表される１バイトコードは、ギリシャ・ラテン文字に由来するアルファベットの処理には充分だが、東アジアの言語が日常用いている何千にも上る文字を扱うには、全く無力だからである。

膨大な字数を持つ漢字（中国では Han-Zi, 朝鮮語では Hanja) の言語処理は、一筋縄ではかたがつかない。たとえば、日本語処理では、ひらがなおよびカタカナと、６千字以上の漢字を取り扱わなくてはならない。

同様に、中華人民共和国及びシンガポールで使用されているスタンダード、「国標」の文字セット GB 2312-80 は、文字数が7445個存在する。（その内、3755字がレベル1の漢字、3008字がレベル2の漢字、残り682字が非漢字）

また、主に台湾と香港で使用されている事実上の標準は、Big5だが、5401字のレベル1漢字、7652字のレベル2漢字、470字の非漢字を含んでいる。

韓国の標準文字セットは、、KSC 5601-1992と呼ばれている。その数は、2350字がレベル1のハングル、4880字のレベル2漢字、986字の非ハングル・非漢字となっている。

近年、マイクロソフト社などが後押しして普及に勤めているユニコード（ISO-10646)も無視できない。ユニコードは、混沌を極める日本語、中国語、韓国語の漢字の世界を統一するひとつの試みとしては、たしかに注目に値するかもしれない。非漢字ユーザーが、コードの全体数を節約するために、日本語-中国語-朝鮮語の漢字をまとめて扱うことが可能だと考えるのは、当然のなりゆきであろう。

しかしユニコードは、ちょっと見たところではどうでもいいような、画や点の位置を無視しているため、繊細な漢字ユーザーの文字感覚を逆なでしている感がある。このためにユニコードは、東アジアのユーザーにはどうしても賛同を得られないでいる。従って、さしあたりこのコードについては、この場では取り扱わないほうが無難であろう。

3.2.2　日本語文字セットのコーディング

日本語で使用される文字セットは、JIS X 0208-1990　だが、このJISレベル1には2965字の漢字、レベル2には3390漢字が定義されている。この他、524字の非漢字、および１バイトの文字（94字のASCII文字、63字の半角カナ、34のコントロール記号）が含まれている。

このような膨大な文字数に加えて、日本語処理を混乱させているのが、多数のコーディング体系である。現在では、もっとも代表的な体系は一つではなく、EUC-JP、JIS、シフトJISという３種類が並立して拮抗している。

この中でも、ISO-2022-JPとも呼ばれるJISコーディングは、日本語のインターネット電子メールでの標準という立場にある。

EUC-JPは、ほとんどのUNIXシステムで使用されている。最も広範囲で使用されているのは、シフトJISで、ウィンテルであれアップルであれ、ほとんどのパソコンではこのコーディングが主力になっている。また、日本語のウェブサイトの大多数はシフトJISが用いられており、JISやEUCコーディングのページを設けているサイトは比較的少数にとどまっている。

ネットスケープとインターネットエクスプローラーの２ブラウザーは現在、この日本語コーディング地獄にスマートに対処処できる機能を備えている。あるウェブページが、どのコーディングを用いているかを検知し、正しい文字を表示することが可能となっている。もっとも、ＯＳが漢字に対応していることが前提とはなるが。

しかし、日本以外の国で使用されているコンピューターでは、通常、漢字フォントがインストールされているケースはほとんどありえない。つまり、何十億もの日本語のウェブページは、日本語ＯＳを持たないコンピューターでは見事な文字化けになってしまう。

グローバルサーファー（APフォント研究会が開発中のアプリケーションの仮称）は、日本語の漢字フォントをブラウザに提供することにより、日本語ＯＳを持たないコンピューターでも、日本語表示を可能にしている。

コーディングについては、シフトJISとJISを自動検知可能。しかしEUCは、現在の段階では自動検知できない。そのため、パソコンに文字化け画面が出現した時には、手動でEUC-JP記号に切り替える必要がある。

[ 目次 | 前 | 次 ]