(1)改訂可能な論理的文書特に、文書が分散的に作成される場合、形態(1)文書と形態(2)文書の交換は不可欠である。HTMLまたはSGML/XMLは、形態(1)文書の交換を十分にサポートできる。
(2)整形情報を伴う改訂可能な文書
(3)整形済み文書
NOTE1:HTML-ハイパーテキストマーク付け言語定義済みの整形指定を含むHTML処理システムに対して、HTMLは形態(2)文書の交換をある程度サポートできる。より複雑な整形指定が要求される場合は、XSLまたはDSSSLの使用が望ましい。
NOTE2:SGML-標準一般化マーク付け言語
NOTE3:XML-拡張可能なマーク付け言語
NOTE4:XSL-拡張可能なスタイル言語形態(3)の文書は、実装されているPDFまたはPDLで記述可能である。PDF文書を使用する場合、圧縮データで配布することが可能である。
NOTE5:DSSSL-文書スタイル意味および指定言語
NOTE6:PDF-ポータブル文書ファイル
NOTE7:PDL-ページ記述言語
インターネット環境で交換される文書は、多言語が混合した形、つまり、一つの段落やページ、文書の中に複数の言語で表現された部分がある形が要求される。これらの文書は、他の文書と区別するために真の多言語文書(real multilingual documents)と呼ばれるべきである。典型的な例は、オンライン会議での参加者リストである。参加リストの中では、各参加者名は自国の言語で表示されるべきである。
真の多言語文書は、適切な多言語整形に従って変換、表示される必要がある。つまり、多言語文書の作成、取り扱いの際は、以下の配慮が必要である。
(1)多言語レパートリーを含む符号化文字集合実装のために、将来的には以下の課題について議論が必要である。
(2)多言語レンダリングに必要なフォント集合
(3)多言語レンダリングのためのスタイル指定
東アジアの主要な言語 --中国語、日本語、朝鮮語-- は、2バイトコードを使用している。ASCIIに代表される1バイトコードは、ギリシャ・ラテン文字に由来するアルファベットの処理には充分だが、東アジアの言語が日常用いている何千にも上る文字を扱うには、全く無力だからである。
膨大な字数を持つ漢字(中国では Han-Zi, 朝鮮語では Hanja) の言語処理は、一筋縄ではかたがつかない。たとえば、日本語処理では、ひらがなおよびカタカナと、6千字以上の漢字を取り扱わなくてはならない。
同様に、中華人民共和国及びシンガポールで使用されているスタンダード、「国標」の文字セット GB 2312-80 は、文字数が7445個存在する。(その内、3755字がレベル1の漢字、3008字がレベル2の漢字、残り682字が非漢字)
また、主に台湾と香港で使用されている事実上の標準は、Big5だが、5401字のレベル1漢字、7652字のレベル2漢字、470字の非漢字を含んでいる。
韓国の標準文字セットは、、KSC 5601-1992と呼ばれている。その数は、2350字がレベル1のハングル、4880字のレベル2漢字、986字の非ハングル・非漢字となっている。
近年、マイクロソフト社などが後押しして普及に勤めているユニコード(ISO-10646)も無視できない。ユニコードは、混沌を極める日本語、中国語、韓国語の漢字の世界を統一するひとつの試みとしては、たしかに注目に値するかもしれない。非漢字ユーザーが、コードの全体数を節約するために、日本語-中国語-朝鮮語の漢字をまとめて扱うことが可能だと考えるのは、当然のなりゆきであろう。
しかしユニコードは、ちょっと見たところではどうでもいいような、画や点の位置を無視しているため、繊細な漢字ユーザーの文字感覚を逆なでしている感がある。このためにユニコードは、東アジアのユーザーにはどうしても賛同を得られないでいる。従って、さしあたりこのコードについては、この場では取り扱わないほうが無難であろう。
このような膨大な文字数に加えて、日本語処理を混乱させているのが、多数のコーディング体系である。現在では、もっとも代表的な体系は一つではなく、EUC-JP、JIS、シフトJISという3種類が並立して拮抗している。
この中でも、ISO-2022-JPとも呼ばれるJISコーディングは、日本語のインターネット電子メールでの標準という立場にある。
EUC-JPは、ほとんどのUNIXシステムで使用されている。最も広範囲で使用されているのは、シフトJISで、ウィンテルであれアップルであれ、ほとんどのパソコンではこのコーディングが主力になっている。また、日本語のウェブサイトの大多数はシフトJISが用いられており、JISやEUCコーディングのページを設けているサイトは比較的少数にとどまっている。
ネットスケープとインターネットエクスプローラーの2ブラウザーは現在、この日本語コーディング地獄にスマートに対処処できる機能を備えている。あるウェブページが、どのコーディングを用いているかを検知し、正しい文字を表示することが可能となっている。もっとも、OSが漢字に対応していることが前提とはなるが。
しかし、日本以外の国で使用されているコンピューターでは、通常、漢字フォントがインストールされているケースはほとんどありえない。つまり、何十億もの日本語のウェブページは、日本語OSを持たないコンピューターでは見事な文字化けになってしまう。
グローバルサーファー(APフォント研究会が開発中のアプリケーションの仮称)は、日本語の漢字フォントをブラウザに提供することにより、日本語OSを持たないコンピューターでも、日本語表示を可能にしている。
コーディングについては、シフトJISとJISを自動検知可能。しかしEUCは、現在の段階では自動検知できない。そのため、パソコンに文字化け画面が出現した時には、手動でEUC-JP記号に切り替える必要がある。