[ 目次 | | ]

3. 多言語文書の配布モデル

3.1 文書モデル

3.1.1 文書の3形態

多言語文書の配布においても、電子化文書の3形態を考慮に入れる必要がある。
(1)改訂可能な論理的文書
(2)整形情報を伴う改訂可能な文書
(3)整形済み文書
特に、文書が分散的に作成される場合、形態(1)文書と形態(2)文書の交換は不可欠である。HTMLまたはSGML/XMLは、形態(1)文書の交換を十分にサポートできる。
NOTE1:HTML-ハイパーテキストマーク付け言語
NOTE2:SGML-標準一般化マーク付け言語
NOTE3:XML-拡張可能なマーク付け言語
定義済みの整形指定を含むHTML処理システムに対して、HTMLは形態(2)文書の交換をある程度サポートできる。より複雑な整形指定が要求される場合は、XSLまたはDSSSLの使用が望ましい。
NOTE4:XSL-拡張可能なスタイル言語
NOTE5:DSSSL-文書スタイル意味および指定言語
形態(3)の文書は、実装されているPDFまたはPDLで記述可能である。PDF文書を使用する場合、圧縮データで配布することが可能である。
NOTE6:PDF-ポータブル文書ファイル
NOTE7:PDL-ページ記述言語

3.1.2 多言語化に関する配慮

今日の多くのブラウザは、「多言語」対応機能を備えている。しかし、これらの「多言語」機能は、メニューバーにある言語を選択するものである。多言語機能は、多言語化(multilingual)というよりはむしろ多地域化(multi-localization)に対応するものでなければならない。現在の機能では、異なる言語の部分を同一のページまたは文書の中に含むことができない。

インターネット環境で交換される文書は、多言語が混合した形、つまり、一つの段落やページ、文書の中に複数の言語で表現された部分がある形が要求される。これらの文書は、他の文書と区別するために真の多言語文書(real multilingual documents)と呼ばれるべきである。典型的な例は、オンライン会議での参加者リストである。参加リストの中では、各参加者名は自国の言語で表示されるべきである。

真の多言語文書は、適切な多言語整形に従って変換、表示される必要がある。つまり、多言語文書の作成、取り扱いの際は、以下の配慮が必要である。

(1)多言語レパートリーを含む符号化文字集合
(2)多言語レンダリングに必要なフォント集合
(3)多言語レンダリングのためのスタイル指定
実装のために、将来的には以下の課題について議論が必要である。

3.2 日本語とアジア言語のフォント

3.2.1 文字の迷宮


東アジアの主要な言語 --中国語、日本語、朝鮮語-- は、2バイトコードを使用している。ASCIIに代表される1バイトコードは、ギリシャ・ラテン文字に由来するアルファベットの処理には充分だが、東アジアの言語が日常用いている何千にも上る文字を扱うには、全く無力だからである。

膨大な字数を持つ漢字(中国では Han-Zi, 朝鮮語では Hanja) の言語処理は、一筋縄ではかたがつかない。たとえば、日本語処理では、ひらがなおよびカタカナと、6千字以上の漢字を取り扱わなくてはならない。

同様に、中華人民共和国及びシンガポールで使用されているスタンダード、「国標」の文字セット GB 2312-80 は、文字数が7445個存在する。(その内、3755字がレベル1の漢字、3008字がレベル2の漢字、残り682字が非漢字)

また、主に台湾と香港で使用されている事実上の標準は、Big5だが、5401字のレベル1漢字、7652字のレベル2漢字、470字の非漢字を含んでいる。

韓国の標準文字セットは、、KSC 5601-1992と呼ばれている。その数は、2350字がレベル1のハングル、4880字のレベル2漢字、986字の非ハングル・非漢字となっている。

近年、マイクロソフト社などが後押しして普及に勤めているユニコード(ISO-10646)も無視できない。ユニコードは、混沌を極める日本語、中国語、韓国語の漢字の世界を統一するひとつの試みとしては、たしかに注目に値するかもしれない。非漢字ユーザーが、コードの全体数を節約するために、日本語-中国語-朝鮮語の漢字をまとめて扱うことが可能だと考えるのは、当然のなりゆきであろう。

しかしユニコードは、ちょっと見たところではどうでもいいような、画や点の位置を無視しているため、繊細な漢字ユーザーの文字感覚を逆なでしている感がある。このためにユニコードは、東アジアのユーザーにはどうしても賛同を得られないでいる。従って、さしあたりこのコードについては、この場では取り扱わないほうが無難であろう。

3.2.2 日本語文字セットのコーディング

日本語で使用される文字セットは、JIS X 0208-1990 だが、このJISレベル1には2965字の漢字、レベル2には3390漢字が定義されている。この他、524字の非漢字、および1バイトの文字(94字のASCII文字、63字の半角カナ、34のコントロール記号)が含まれている。

このような膨大な文字数に加えて、日本語処理を混乱させているのが、多数のコーディング体系である。現在では、もっとも代表的な体系は一つではなく、EUC-JP、JIS、シフトJISという3種類が並立して拮抗している。

この中でも、ISO-2022-JPとも呼ばれるJISコーディングは、日本語のインターネット電子メールでの標準という立場にある。

EUC-JPは、ほとんどのUNIXシステムで使用されている。最も広範囲で使用されているのは、シフトJISで、ウィンテルであれアップルであれ、ほとんどのパソコンではこのコーディングが主力になっている。また、日本語のウェブサイトの大多数はシフトJISが用いられており、JISやEUCコーディングのページを設けているサイトは比較的少数にとどまっている。

ネットスケープとインターネットエクスプローラーの2ブラウザーは現在、この日本語コーディング地獄にスマートに対処処できる機能を備えている。あるウェブページが、どのコーディングを用いているかを検知し、正しい文字を表示することが可能となっている。もっとも、OSが漢字に対応していることが前提とはなるが。

しかし、日本以外の国で使用されているコンピューターでは、通常、漢字フォントがインストールされているケースはほとんどありえない。つまり、何十億もの日本語のウェブページは、日本語OSを持たないコンピューターでは見事な文字化けになってしまう。

グローバルサーファー(APフォント研究会が開発中のアプリケーションの仮称)は、日本語の漢字フォントをブラウザに提供することにより、日本語OSを持たないコンピューターでも、日本語表示を可能にしている。

コーディングについては、シフトJISとJISを自動検知可能。しかしEUCは、現在の段階では自動検知できない。そのため、パソコンに文字化け画面が出現した時には、手動でEUC-JP記号に切り替える必要がある。


[ 目次 | | ]